WO2023191314A1 - 정보를 제공하는 방법 및 이를 지원하는 전자 장치 - Google Patents
정보를 제공하는 방법 및 이를 지원하는 전자 장치 Download PDFInfo
- Publication number
- WO2023191314A1 WO2023191314A1 PCT/KR2023/002528 KR2023002528W WO2023191314A1 WO 2023191314 A1 WO2023191314 A1 WO 2023191314A1 KR 2023002528 W KR2023002528 W KR 2023002528W WO 2023191314 A1 WO2023191314 A1 WO 2023191314A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- input
- user
- information corresponding
- gesture
- electronic device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000004891 communication Methods 0.000 claims description 100
- 230000001276 controlling effect Effects 0.000 claims 1
- 230000008921 facial expression Effects 0.000 description 64
- 230000036541 health Effects 0.000 description 45
- 238000004458 analytical method Methods 0.000 description 35
- 230000003287 optical effect Effects 0.000 description 20
- 210000000707 wrist Anatomy 0.000 description 20
- 230000006870 function Effects 0.000 description 19
- 230000005236 sound signal Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 16
- 230000008451 emotion Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 210000001747 pupil Anatomy 0.000 description 5
- 239000000758 substrate Substances 0.000 description 5
- 208000032041 Hearing impaired Diseases 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 3
- 210000000577 adipose tissue Anatomy 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000005057 finger movement Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 229910052710 silicon Inorganic materials 0.000 description 3
- 239000010703 silicon Substances 0.000 description 3
- 230000000638 stimulation Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000001097 facial muscle Anatomy 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003155 kinesthetic effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
Definitions
- This disclosure relates to a method of providing information and an electronic device supporting the same.
- wearable electronic devices such as head mounting devices (HMD), smart watches (or bands), contact lens-type devices, ring-type devices, glove-type devices, shoe-type devices, or garment-type devices. It is being commercialized. Since wearable electronic devices are worn directly on the body, portability and user accessibility can be improved.
- An HMD device is a device worn on a user's head or face and can provide augmented reality (AR) to the user.
- AR augmented reality
- an HMD device that provides augmented reality may be implemented in the form of glasses and provide information about objects in the form of images or text to the user in at least a portion of the user's field of view.
- HMD devices can provide virtual reality (VR) to users. For example, it is possible to provide an excellent sense of immersion by outputting independent images to both eyes of the user and outputting content provided from an external input to the user in the form of video or sound.
- HMD devices may provide mixed reality (MR) and/or extended reality (XR).
- MR mixed reality
- XR extended reality
- the HMD device can receive information or transmit information through an input/output device.
- the HMD device can acquire external sounds (e.g., the other party's voice) through a microphone.
- the HMD device can convert the acquired voice into image or audio format and output it, thereby providing information represented by the acquired voice to a user (eg, a hearing impaired person) wearing the HMD device.
- the HMD device can generate information to be delivered to the other party using a virtual keyboard displayed on the HMD device, convert the generated information into audio, and output it through an output device (eg, speaker).
- an output device eg, speaker
- an electronic device e.g., HMD device
- the audio output through the electronic device may be indistinguishable from the user's voice (voice).
- the electronic device can obtain input using a virtual keyboard.
- the electronic device can convert the obtained input into text and output audio corresponding to the converted text through a speaker. If the user speaks while audio is being output from the electronic device, the audio output through the electronic device and the voice spoken by the user may not be distinguished by the other party.
- the electronic device can simultaneously receive various inputs, such as the user's voice or facial expression, along with the user's gesture.
- the electronic device processes and outputs only the input related to the user's gesture among various inputs input simultaneously, and may have difficulty processing other inputs.
- each of the outputs corresponding to the various inputs is may not be distinguishable from each other.
- Various embodiments of the present disclosure relate to a method of providing information that can output outputs corresponding to various inputs input to an electronic device separately from each other, and an electronic device supporting the same.
- An electronic device includes one or more input modules, one or more speakers, a display, and at least one operably connected to the one or more input modules, the one or more speakers, and the display.
- a processor wherein the at least one processor acquires input through the one or more input modules, checks the type of the input, and determines whether to output information corresponding to the input through the one or more speakers. and based on determining to output information corresponding to the input through the one or more speakers, based on the type of the input, so that information corresponding to the input is output through the one or more speakers. Can be configured to control one or more speakers.
- a method of providing information in an electronic device includes the operation of obtaining an input through one or more input modules of the electronic device, the operation of confirming the type of the input, and information corresponding to the input. an operation of determining whether to output information corresponding to the input through the one or more speakers, and based on the decision to output information corresponding to the input through the one or more speakers, based on the type of the input, It may include controlling the one or more speakers so that information is output through the one or more speakers.
- a method for providing information and an electronic device supporting the same can enable outputs corresponding to various inputs input to the electronic device to be output separately from each other.
- FIG. 1 is a block diagram of an electronic device in a network environment, according to various embodiments.
- FIG. 2 is an example diagram for explaining the structure of an electronic device according to various embodiments.
- FIG. 3 is an example diagram illustrating the structure of an eye tracking camera of an electronic device according to various embodiments.
- FIG. 4 is an example diagram for explaining an electronic device according to various embodiments.
- Figure 5 is a block diagram of an electronic device according to various embodiments.
- Figure 6 is a block diagram of a processor, according to various embodiments.
- FIG. 7 is a flowchart illustrating a method of providing information according to various embodiments.
- FIG. 8 is a flowchart illustrating a method of providing information corresponding to a gesture, according to various embodiments.
- FIG. 9 is a flowchart illustrating a method of providing information corresponding to a gesture, according to various embodiments.
- FIG. 10 is a flowchart illustrating a method of providing information corresponding to a gesture and information corresponding to a voice, according to various embodiments.
- FIG. 11 is a flowchart illustrating a method of providing information corresponding to a gesture while making a call, according to various embodiments.
- FIG. 12 is a flowchart illustrating a method of providing information corresponding to a user's voice while making a call, according to various embodiments.
- FIG. 13 is a flowchart illustrating a method of providing information corresponding to a gesture and information corresponding to a voice while making a call, according to various embodiments.
- FIG. 14 is a flowchart illustrating a method of providing information corresponding to a gesture and information corresponding to a voice while making a call, according to various embodiments.
- FIG. 15 is a flowchart illustrating a method of providing information corresponding to a gesture and information corresponding to a voice, according to various embodiments.
- FIG. 16 is a flowchart illustrating a method of providing information based on the surrounding environment, according to various embodiments.
- FIG. 17 is a flowchart illustrating a method of providing information corresponding to a plurality of inputs, according to various embodiments.
- FIG. 1 is a block diagram of an electronic device 101 in a network environment 100, according to various embodiments.
- the electronic device 101 communicates with the electronic device 102 through a first network 198 (e.g., a short-range wireless communication network) or a second network 199. It is possible to communicate with at least one of the electronic device 104 or the server 108 through (e.g., a long-distance wireless communication network). According to one embodiment, the electronic device 101 may communicate with the electronic device 104 through the server 108.
- a first network 198 e.g., a short-range wireless communication network
- a second network 199 e.g., a long-distance wireless communication network.
- the electronic device 101 may communicate with the electronic device 104 through the server 108.
- the electronic device 101 includes a processor 120, a memory 130, an input module 150, an audio output module 155, a display module 160, an audio module 170, and a sensor module ( 176), interface 177, connection terminal 178, haptic module 179, camera module 180, power management module 188, battery 189, communication module 190, subscriber identification module 196 , or may include an antenna module 197.
- at least one of these components eg, the connection terminal 178) may be omitted or one or more other components may be added to the electronic device 101.
- some of these components e.g., sensor module 176, camera module 180, or antenna module 197) are integrated into one component (e.g., display module 160). It can be.
- the processor 120 for example, executes software (e.g., program 140) to operate at least one other component (e.g., hardware or software component) of the electronic device 101 connected to the processor 120. It can be controlled and various data processing or calculations can be performed. According to one embodiment, as at least part of data processing or computation, the processor 120 stores instructions or data received from another component (e.g., sensor module 176 or communication module 190) in volatile memory 132. The commands or data stored in the volatile memory 132 can be processed, and the resulting data can be stored in the non-volatile memory 134.
- software e.g., program 140
- the processor 120 stores instructions or data received from another component (e.g., sensor module 176 or communication module 190) in volatile memory 132.
- the commands or data stored in the volatile memory 132 can be processed, and the resulting data can be stored in the non-volatile memory 134.
- the processor 120 includes the main processor 121 (e.g., a central processing unit or an application processor) or an auxiliary processor 123 that can operate independently or together (e.g., a graphics processing unit, a neural network processing unit ( It may include a neural processing unit (NPU), an image signal processor, a sensor hub processor, or a communication processor).
- the main processor 121 e.g., a central processing unit or an application processor
- an auxiliary processor 123 e.g., a graphics processing unit, a neural network processing unit ( It may include a neural processing unit (NPU), an image signal processor, a sensor hub processor, or a communication processor.
- the electronic device 101 includes a main processor 121 and a secondary processor 123
- the secondary processor 123 may be set to use lower power than the main processor 121 or be specialized for a designated function. You can.
- the auxiliary processor 123 may be implemented separately from the main processor 121 or as part of it.
- the auxiliary processor 123 may, for example, act on behalf of the main processor 121 while the main processor 121 is in an inactive (e.g., sleep) state, or while the main processor 121 is in an active (e.g., application execution) state. ), together with the main processor 121, at least one of the components of the electronic device 101 (e.g., the display module 160, the sensor module 176, or the communication module 190) At least some of the functions or states related to can be controlled.
- co-processor 123 e.g., image signal processor or communication processor
- may be implemented as part of another functionally related component e.g., camera module 180 or communication module 190. there is.
- the auxiliary processor 123 may include a hardware structure specialized for processing artificial intelligence models.
- Artificial intelligence models can be created through machine learning. For example, such learning may be performed in the electronic device 101 itself on which the artificial intelligence model is performed, or may be performed through a separate server (e.g., server 108).
- Learning algorithms may include, for example, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but It is not limited.
- An artificial intelligence model may include multiple artificial neural network layers.
- Artificial neural networks include deep neural network (DNN), convolutional neural network (CNN), recurrent neural network (RNN), restricted boltzmann machine (RBM), belief deep network (DBN), bidirectional recurrent deep neural network (BRDNN), It may be one of deep Q-networks or a combination of two or more of the above, but is not limited to the examples described above.
- artificial intelligence models may additionally or alternatively include software structures.
- the memory 130 may store various data used by at least one component (eg, the processor 120 or the sensor module 176) of the electronic device 101. Data may include, for example, input data or output data for software (e.g., program 140) and instructions related thereto.
- Memory 130 may include volatile memory 132 or non-volatile memory 134.
- the program 140 may be stored as software in the memory 130 and may include, for example, an operating system 142, middleware 144, or application 146.
- the input module 150 may receive commands or data to be used in a component of the electronic device 101 (e.g., the processor 120) from outside the electronic device 101 (e.g., a user).
- the input module 150 may include, for example, a microphone, mouse, keyboard, keys (eg, buttons), or digital pen (eg, stylus pen).
- the sound output module 155 may output sound signals to the outside of the electronic device 101.
- the sound output module 155 may include, for example, a speaker or a receiver. Speakers can be used for general purposes such as multimedia playback or recording playback.
- the receiver can be used to receive incoming calls. According to one embodiment, the receiver may be implemented separately from the speaker or as part of it.
- the display module 160 can visually provide information to the outside of the electronic device 101 (eg, a user).
- the display module 160 may include, for example, a display, a hologram device, or a projector, and a control circuit for controlling the device.
- the display module 160 may include a touch sensor configured to detect a touch, or a pressure sensor configured to measure the intensity of force generated by the touch.
- the audio module 170 can convert sound into an electrical signal or, conversely, convert an electrical signal into sound. According to one embodiment, the audio module 170 acquires sound through the input module 150, the sound output module 155, or an external electronic device (e.g., directly or wirelessly connected to the electronic device 101). Sound may be output through the electronic device 102 (e.g., speaker or headphone).
- the electronic device 102 e.g., speaker or headphone
- the sensor module 176 detects the operating state (e.g., power or temperature) of the electronic device 101 or the external environmental state (e.g., user state) and generates an electrical signal or data value corresponding to the detected state. can do.
- the sensor module 176 includes, for example, a gesture sensor, a gyro sensor, an air pressure sensor, a magnetic sensor, an acceleration sensor, a grip sensor, a proximity sensor, a color sensor, an IR (infrared) sensor, a biometric sensor, It may include a temperature sensor, humidity sensor, or light sensor.
- the interface 177 may support one or more designated protocols that can be used to connect the electronic device 101 directly or wirelessly with an external electronic device (eg, the electronic device 102).
- the interface 177 may include, for example, a high definition multimedia interface (HDMI), a universal serial bus (USB) interface, an SD card interface, or an audio interface.
- HDMI high definition multimedia interface
- USB universal serial bus
- SD card interface Secure Digital Card interface
- audio interface audio interface
- connection terminal 178 may include a connector through which the electronic device 101 can be physically connected to an external electronic device (eg, the electronic device 102).
- the connection terminal 178 may include, for example, an HDMI connector, a USB connector, an SD card connector, or an audio connector (eg, a headphone connector).
- the haptic module 179 can convert electrical signals into mechanical stimulation (e.g., vibration or movement) or electrical stimulation that the user can perceive through tactile or kinesthetic senses.
- the haptic module 179 may include, for example, a motor, a piezoelectric element, or an electrical stimulation device.
- the camera module 180 can capture still images and moving images.
- the camera module 180 may include one or more lenses, image sensors, image signal processors, or flashes.
- the power management module 188 can manage power supplied to the electronic device 101.
- the power management module 188 may be implemented as at least a part of, for example, a power management integrated circuit (PMIC).
- PMIC power management integrated circuit
- the battery 189 may supply power to at least one component of the electronic device 101.
- the battery 189 may include, for example, a non-rechargeable primary battery, a rechargeable secondary battery, or a fuel cell.
- Communication module 190 is configured to provide a direct (e.g., wired) communication channel or wireless communication channel between electronic device 101 and an external electronic device (e.g., electronic device 102, electronic device 104, or server 108). It can support establishment and communication through established communication channels. Communication module 190 operates independently of processor 120 (e.g., an application processor) and may include one or more communication processors that support direct (e.g., wired) communication or wireless communication.
- processor 120 e.g., an application processor
- the communication module 190 may be a wireless communication module 192 (e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module) or a wired communication module 194 (e.g., : LAN (local area network) communication module, or power line communication module) may be included.
- a wireless communication module 192 e.g., a cellular communication module, a short-range wireless communication module, or a global navigation satellite system (GNSS) communication module
- GNSS global navigation satellite system
- wired communication module 194 e.g., : LAN (local area network) communication module, or power line communication module
- the corresponding communication module is a first network 198 (e.g., a short-range communication network such as Bluetooth, wireless fidelity (WiFi) direct, or infrared data association (IrDA)) or a second network 199 (e.g., legacy It may communicate with an external electronic device 104 through a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
- a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
- a telecommunication network such as a cellular network, a 5G network, a next-generation communication network, the Internet, or a computer network (e.g., LAN or WAN).
- a telecommunication network such as a cellular network, a 5G network, a next-generation communication network
- the wireless communication module 192 uses subscriber information (e.g., International Mobile Subscriber Identifier (IMSI)) stored in the subscriber identification module 196 within a communication network such as the first network 198 or the second network 199.
- subscriber information e.g., International Mobile Subscriber Identifier (IMSI)
- IMSI International Mobile Subscriber Identifier
- the wireless communication module 192 may support 5G networks after 4G networks and next-generation communication technologies, for example, NR access technology (new radio access technology).
- NR access technology provides high-speed transmission of high-capacity data (eMBB (enhanced mobile broadband)), minimization of terminal power and access to multiple terminals (mMTC (massive machine type communications)), or high reliability and low latency (URLLC (ultra-reliable and low latency). -latency communications)) can be supported.
- the wireless communication module 192 may support high frequency bands (eg, mmWave bands), for example, to achieve high data rates.
- the wireless communication module 192 uses various technologies to secure performance in high frequency bands, for example, beamforming, massive array multiple-input and multiple-output (MIMO), and full-dimensional multiplexing. It can support technologies such as input/output (FD-MIMO: full dimensional MIMO), array antenna, analog beam-forming, or large scale antenna.
- the wireless communication module 192 may support various requirements specified in the electronic device 101, an external electronic device (e.g., electronic device 104), or a network system (e.g., second network 199).
- the wireless communication module 192 supports Peak data rate (e.g., 20 Gbps or more) for realizing eMBB, loss coverage (e.g., 164 dB or less) for realizing mmTC, or U-plane latency (e.g., 164 dB or less) for realizing URLLC.
- Peak data rate e.g., 20 Gbps or more
- loss coverage e.g., 164 dB or less
- U-plane latency e.g., 164 dB or less
- the antenna module 197 may transmit signals or power to or receive signals or power from the outside (e.g., an external electronic device).
- the antenna module 197 may include an antenna including a radiator made of a conductor or a conductive pattern formed on a substrate (eg, PCB).
- the antenna module 197 may include a plurality of antennas (eg, an array antenna). In this case, at least one antenna suitable for a communication method used in a communication network such as the first network 198 or the second network 199 is connected to the plurality of antennas by, for example, the communication module 190. can be selected Signals or power may be transmitted or received between the communication module 190 and an external electronic device through the at least one selected antenna.
- other components eg, radio frequency integrated circuit (RFIC) may be additionally formed as part of the antenna module 197.
- RFIC radio frequency integrated circuit
- a mmWave antenna module includes: a printed circuit board, an RFIC disposed on or adjacent to a first side (e.g., bottom side) of the printed circuit board and capable of supporting a designated high frequency band (e.g., mmWave band); And a plurality of antennas (e.g., array antennas) disposed on or adjacent to the second side (e.g., top or side) of the printed circuit board and capable of transmitting or receiving signals in the designated high frequency band. can do.
- a first side e.g., bottom side
- a designated high frequency band e.g., mmWave band
- a plurality of antennas e.g., array antennas
- peripheral devices e.g., bus, general purpose input and output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI)
- signal e.g. commands or data
- commands or data may be transmitted or received between the electronic device 101 and the external electronic device 104 through the server 108 connected to the second network 199.
- Each of the external electronic devices 102 or 104 may be of the same or different type as the electronic device 101.
- all or part of the operations performed in the electronic device 101 may be executed in one or more of the external electronic devices 102, 104, or 108.
- the electronic device 101 may perform the function or service instead of executing the function or service on its own.
- one or more external electronic devices may be requested to perform at least part of the function or service.
- One or more external electronic devices that have received the request may execute at least part of the requested function or service, or an additional function or service related to the request, and transmit the result of the execution to the electronic device 101.
- the electronic device 101 may process the result as is or additionally and provide it as at least part of a response to the request.
- cloud computing distributed computing, mobile edge computing (MEC), or client-server computing technology can be used.
- the electronic device 101 may provide an ultra-low latency service using, for example, distributed computing or mobile edge computing.
- the external electronic device 104 may include an Internet of Things (IoT) device.
- Server 108 may be an intelligent server using machine learning and/or neural networks.
- the external electronic device 104 or server 108 may be included in the second network 199.
- the electronic device 101 may be applied to intelligent services (e.g., smart home, smart city, smart car, or healthcare) based on 5G communication technology and IoT-related technology.
- Electronic devices may be of various types.
- Electronic devices may include, for example, portable communication devices (e.g., smartphones), computer devices, portable multimedia devices, portable medical devices, cameras, wearable devices, or home appliances.
- Electronic devices according to embodiments of this document are not limited to the above-described devices.
- first, second, or first or second may be used simply to distinguish one component from another, and to refer to that component in other respects (e.g., importance or order) is not limited.
- One (e.g., first) component is said to be “coupled” or “connected” to another (e.g., second) component, with or without the terms “functionally” or “communicatively.”
- any of the components can be connected to the other components directly (e.g. wired), wirelessly, or through a third component.
- module used in various embodiments of this document may include a unit implemented in hardware, software, or firmware, and is interchangeable with terms such as logic, logic block, component, or circuit, for example. It can be used as A module may be an integrated part or a minimum unit of the parts or a part thereof that performs one or more functions. For example, according to one embodiment, the module may be implemented in the form of an application-specific integrated circuit (ASIC).
- ASIC application-specific integrated circuit
- Various embodiments of the present document are one or more instructions stored in a storage medium (e.g., built-in memory 136 or external memory 138) that can be read by a machine (e.g., electronic device 101). It may be implemented as software (e.g., program 140) including these.
- a processor e.g., processor 120
- the one or more instructions may include code generated by a compiler or code that can be executed by an interpreter.
- a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
- 'non-transitory' only means that the storage medium is a tangible device and does not contain signals (e.g. electromagnetic waves), and this term refers to cases where data is semi-permanently stored in the storage medium. There is no distinction between temporary storage cases.
- Computer program products are commodities and can be traded between sellers and buyers.
- the computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)), or through an application store (e.g. Play Store TM ) or on two user devices (e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online.
- a machine-readable storage medium e.g. compact disc read only memory (CD-ROM)
- an application store e.g. Play Store TM
- two user devices e.g. It can be distributed (e.g. downloaded or uploaded) directly between smart phones) or online.
- at least a portion of the computer program product may be at least temporarily stored or temporarily created in a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server.
- each component (e.g., module or program) of the above-described components may include a single or plural entity, and some of the plurality of entities may be separately placed in other components. there is.
- one or more of the components or operations described above may be omitted, or one or more other components or operations may be added.
- multiple components eg, modules or programs
- the integrated component may perform one or more functions of each component of the plurality of components in the same or similar manner as those performed by the corresponding component of the plurality of components prior to the integration. .
- operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or one or more of the operations may be executed in a different order, or omitted. Alternatively, one or more other operations may be added.
- FIG. 2 is an example diagram for explaining the structure of the electronic device 201 according to various embodiments.
- the electronic device 201 (e.g., electronic device 101) includes one or more first cameras 211-1 and 211-2 and one or more second cameras 212. -1, 212-2), and one or more third cameras 213.
- images acquired through one or more first cameras 211-1 and 211-2 may be used for detecting a hand gesture by a user, tracking the user's head, and/or spatial recognition.
- one or more first cameras 211-1 and 211-2 may be global shutter (GS) cameras.
- GS global shutter
- one or more first cameras 211-1 and 211-2 may perform a simultaneous localization and mapping (SLAM) operation through depth photography. In one embodiment, one or more first cameras 211-1 and 211-2 may perform spatial recognition for 6 degrees of freedom (6DoF).
- SLAM simultaneous localization and mapping
- 6DoF 6 degrees of freedom
- images acquired through one or more second cameras 212-1 and 212-2 may be used to detect and track the user's pupils.
- one or more of the second cameras 212-1 and 212-2 may be GS cameras.
- the one or more second cameras 212-1 and 212-2 may correspond to the left and right eyes, respectively, and the performance of the one or more second cameras 212-1 and 212-2 is the same. can do.
- one or more third cameras 213 may be high-resolution cameras. In one embodiment, one or more third cameras 213 may perform an auto-focusing (AF) function and a shake correction function. In one embodiment, the one or more third cameras 213 may be GS cameras or rolling shutter (RS) cameras.
- AF auto-focusing
- RS rolling shutter
- the electronic device 201 may include one or more light emitting elements 214-1 and 214-2.
- the light emitting elements 214-1 and 214-2 may be different from the light source described later that irradiates light to the screen output area of the display.
- the light emitting elements (214-1, 214-2) perform eye detection when detecting and tracking the user's pupils through one or more second cameras (212-1, 212-2). Light can be irradiated to facilitate this.
- the light emitting elements 214-1 and 214-2 may each include a light emitting diode (LED). In one embodiment, the light emitting elements 214-1 and 214-2 may emit light in the infrared region. In one embodiment, the light emitting elements 214-1 and 214-2 may be attached around the frame of the electronic device 201. In one embodiment, the light-emitting elements 214-1 and 214-2 are located around one or more first cameras 211-1 and 211-2, and when the electronic device 201 is used in a dark environment, one or more Gesture detection, head tracking, and spatial recognition by the first cameras 211-1 and 211-2 can be assisted. In one embodiment, the light-emitting elements 214-1 and 214-2 are located around one or more third cameras 213, and when the electronic device 201 is used in a dark environment, the one or more third cameras 213 ) can assist in image acquisition.
- LED light emitting diode
- the electronic device 201 may include batteries 235-1 and 235-2.
- the batteries 235-1 and 235-2 may store power to operate the remaining components of the electronic device 201.
- the electronic device 201 includes a first display 251, a second display 252, one or more input optical members 253-1 and 253-2, and one or more transparent members 290-1. , 290-2), and one or more screen display portions 254-1 and 254-2.
- the first display 251 and the second display 252 may be, for example, a liquid crystal display (LCD), a digital mirror device (DMD), or a silicon liquid crystal display.
- the device may include a liquid crystal on silicon (LCoS), an organic light emitting diode (OLED), or a micro light emitting diode (micro LED).
- the electronic device 201 transmits light to the screen output area of the display. It may include a light source that irradiates. In one embodiment, when the first display 251 and the second display 252 are capable of generating light on their own (for example, when made of one of organic light emitting diodes or micro LEDs), the electronic device 201 is installed separately. Even if it does not include a light source, a virtual image of relatively good quality can be provided to the user.
- one or more transparent members 290-1 and 290-2 may be disposed to face the user's eyes when the user wears the electronic device 201.
- the one or more transparent members 290-1 and 290-2 may include at least one of a glass plate, a plastic plate, or a polymer.
- the user when wearing the electronic device 201, the user can view the outside world through one or more transparent members 290-1 and 290-2.
- one or more input optical members 253-1 and 253-2 may guide light generated by the first display 251 and the second display 252 to the user's eyes.
- a first display 251 and a second display 252 are displayed on one or more screen display portions 254-1 and 254-2 on one or more transparent members 290-1 and 290-2.
- An image based on the light generated is formed, and the user can see the image formed on one or more screen display portions 254-1 and 254-2.
- the electronic device 201 may include one or more optical waveguides (not shown).
- the optical waveguide can transmit light generated by the first display 251 and the second display 252 to the user's eyes.
- the electronic device 201 may include one optical waveguide corresponding to the left eye and the right eye.
- the optical waveguide may include at least one of glass, plastic, or polymer.
- the optical waveguide may include a nanopattern formed on one of its inner or outer surfaces, for example, a polygonal or curved grating structure.
- the optical waveguide may include a free-form prism. In this case, the optical waveguide may provide incident light to the user through a reflection mirror.
- the optical waveguide includes at least one of at least one diffractive element (e.g., a diffractive optical element (DOE), a holographic optical element (HOE)) or a reflective element (e.g., a reflective mirror), and is included in the optical waveguide.
- a diffractive element e.g., a diffractive optical element (DOE), a holographic optical element (HOE)
- a reflective element e.g., a reflective mirror
- Display light emitted from a light source may be guided to the user's eyes using at least one diffractive element or reflective element.
- the diffractive element may include an input/output optical member.
- the reflective element may include a member that causes total reflection.
- the electronic device 201 may include one or more voice input devices 262-1, 262-2, and 262-3 and one or more voice output devices 263-1 and 263-2. there is.
- the electronic device 201 may include a first PCB 270-1 and a second PCB 270-2.
- the first PCB (270-1) and the second PCB (270-2) include one or more first cameras (211-1, 211-2), one or more second cameras (212-1, 212-2), It may be set to transmit electrical signals to components included in the electronic device 201, such as one or more third cameras 213, displays, audio modules, and sensors.
- the first PCB 270-1 and the second PCB 270-2 may include a flexible printed circuit board (FPCB).
- the first PCB 270-1 and the second PCB 270-2 may each include a first substrate, a second substrate, and an interposer disposed between the first substrate and the second substrate. You can.
- FIG. 3 is an example diagram for explaining the structure of an eye tracking camera of the electronic device 201 according to various embodiments.
- the electronic device 201 includes an eye tracking (ET) camera 311 (e.g., one or more second cameras 212-1 and 212-2), a display 301, and an input optical member ( 305), a first waveguide 307, an output optical member 309, a first splitter 313, a second waveguide 315, or a second splitter 317.
- E eye tracking
- the user's pupil 319 is connected to the ET camera 311 through the first splitter 313 (e.g., a splitter for eye tracking), the second waveguide 315, and the second splitter 317. can be photographed.
- the ET camera 311 may track the user's gaze by detecting the pupil 319 in the captured image and confirming the movement of the detected pupil 319.
- the image output through the display 301 may be reflected through the input optical member 305 and the first waveguide 307 and displayed through the output optical member 309.
- the electronic device 201 outputs an image through the display 301 and simultaneously tracks the user's gaze (e.g., the direction of the user's gaze) by checking the movement of the user's eyes 319 ( Example: identification) can be done.
- FIG. 4 is an example diagram for explaining an electronic device 401 according to various embodiments.
- the electronic device 401 (e.g., electronic device 101, electronic device 201) includes a first microphone 411, a second microphone 412, and a first camera. 421, a second camera 422, a communication module 431, a first speaker 441, a second speaker 442, and/or a display 451.
- the first microphone 411 may be configured to acquire the user's voice (hereinafter referred to as “user”) wearing the electronic device 401.
- the first microphone 411 may be placed at a location on the electronic device 401 adjacent to the user's mouth in order to acquire the user's voice.
- the second microphone 412 may acquire audio coming from the surroundings of the electronic device 401 (e.g., the other party's voice, sounds surrounding the electronic device 401).
- the second microphone 412 may include a plurality of microphones.
- the electronic device 401 can determine the location of the other party based on audio flowing in through the plurality of microphones.
- the electronic device 401 uses beam forming through the plurality of microphones to move the microphone in a specific direction (e.g., toward the other party).
- Audio (e.g., a voice signal corresponding to the voice of the other party) coming in from the location (direction from the location to the location of the electronic device 401) can be strengthened.
- the second microphone 412 has the same or similar function as the function of one or more voice input devices 262-1, 262-2, and 262-3 included in the electronic device 201 of FIG. 2. It can be done.
- the first camera 421 may sense the user's gesture or the other party's gesture. For example, the first camera 421 may continuously acquire a plurality of frames including a user's gesture (eg, hand gesture). The first camera 421 may transmit a plurality of acquired frames to a processor (eg, processor 570 in FIG. 5).
- a processor eg, processor 570 in FIG. 5
- the first camera 421 may sense the surrounding environment of the electronic device 401.
- the first camera 421 may transmit an image of the surrounding environment of the electronic device 401 to the processor 570.
- the processor 570 may detect the other party's location based on an image of the surrounding environment of the electronic device 401.
- the detected location of the other party can be used for beam forming of a plurality of microphones.
- the first camera 421 is one or more first cameras 421 included in the electronic device 201 of FIG. 2 (e.g., first cameras 211-1, 211- of FIG. 2). It can perform the same or similar functions as 2)).
- the second camera 422 may be configured to acquire an image of the user's face.
- the second camera 422 may transmit an image of the user's face to the processor 570.
- the processor 570 may recognize the user's face based on an image of the user's face.
- processor 570 may detect the user's facial expressions and/or facial muscle movements based on the image of the user's face.
- the communication module 431 (e.g., communication module 190) connects the electronic device 401 and an external electronic device (e.g., electronic device 102, electronic device 104, and/or server (e.g., : Cloud server, server 108) can be communicated and connected.
- an external electronic device e.g., electronic device 102, electronic device 104, and/or server (e.g., : Cloud server, server 108)
- server e.g., : Cloud server, server 108
- the communication module 431 allows the electronic device 401 to perform a call function. In one embodiment, the communication module 431 may transmit an audio signal related to the user's gesture and/or the user's voice to the other party's electronic device while the user is making a call with the other party. The communication module 431 may receive audio signals related to the other party's gesture and/or voice from the other party's electronic device while the user is making a call with the other party.
- the communication module 431 communicates with the electronic device 401 and connects an external input device to obtain information related to the user's gesture (e.g., movement of the user's finger) and/or the user's health ( Example: wireless communication connection) is possible.
- the external input device may include an input device using a vision method, a glove-type input device, and/or an arm band and a wrist band.
- an input device using a vision method includes an LED, and the electronic device 401 can acquire the movement of the user's hand by sensing light emitted from the LED.
- the glove-type input device includes an inertial measurement unit (IMU) sensor and/or a device whose resistance changes according to a change in tension force in order to sense the movement of the hand of the user wearing the glove-type input device. It may include a metal member.
- the glove-shaped input device can transmit the sensed movement of the user's hand to the electronic device 401.
- an arm band and a wrist band may be worn on the user's arm and wrist, respectively.
- the arm band and/or wrist band can sense finger movement by measuring electrical signals from neurons.
- the arm band and/or wrist band may sense finger movement by measuring electrical signals from nerve cells through a plurality of electrodes included in the arm band and/or wrist band.
- the arm band and/or wrist band may transmit the sensed finger movement to the electronic device 401.
- the arm band and/or wrist band may obtain the user's health information (eg, heart rate, body fat percentage) through a biometric sensor.
- the arm band and/or wrist band may transmit the acquired health information to the electronic device 401.
- external input devices for acquiring user gestures and/or information related to the user's health are not limited to the above-described vision-based input devices, glove-type input devices, and/or arm bands and wrist bands.
- the external input device may include any input device capable of providing input to the electronic device 401.
- the external electronic device may include a keyboard and/or mouse that is wired or wirelessly connected to the electronic device 401 and can provide input input by the user to the electronic device 401. .
- the first speaker 441 may output audio corresponding to the user's gesture and/or audio corresponding to the user's voice (voice uttered by the user). For example, when a user's gesture is input to the electronic device 401 (e.g., when an image of the user's gesture is obtained through the first camera 421), the first speaker 441 The information (content) indicated by the gesture can be output in audio form. For another example, when the user's voice is input to the electronic device 401 (e.g., when the voice uttered by the user is obtained through the first microphone 411), the first speaker 441 The information expressed by the voice can be output in audio form.
- the first speaker 441 outputs audio corresponding to the user's gesture and/or audio corresponding to the user's voice, so that the user's intention expressed through the output audio is communicated to the other party located around the user.
- the first speaker 441 may be placed at a location on the electronic device 401 adjacent to the user's mouth.
- the first speaker 441 may be a mono speaker.
- the second speaker 442 may output audio corresponding to the other party's gesture and/or audio corresponding to the other party's voice (voice uttered by the other party) (and surrounding sounds).
- the other person's gesture is input to the electronic device 401 (e.g., when an image of the other person's gesture is obtained through the second camera 422)
- the second speaker 442 The information (content) indicated by the gesture can be output in audio form.
- the second speaker 442 when the other party's voice (or surrounding sound) is input to the electronic device 401 (e.g., the voice spoken by the other party is acquired through the second microphone 412) (if possible), the information expressed by the other party's voice can be output in audio form.
- the second speaker 442 outputs audio corresponding to the other party's gesture and/or audio corresponding to the other party's voice, so that the other party's intention expressed through the output audio can be conveyed to the user.
- the second speaker 442 may be placed at a location on the electronic device 401 adjacent to the user's ear.
- the second speaker 442 may be a plurality of stereo speakers.
- the second speaker 442 may perform the same or similar functions as the functions of one or more audio output devices 263-1 and 263-2 included in the electronic device 201 of FIG. 2. there is.
- display 451 e.g., display module 160
- optical module may be configured to provide a virtual image to the user and/or other party.
- the display 451 is a screen (hereinafter referred to as an “internal screen”) containing content (e.g., text and/or images) that is normally visible to the user through a transparent member and/or through a transparent member.
- a screen hereinafter referred to as an “external screen” containing audio content that is normally visible to the other party may be displayed.
- the display 451 may display the text “abcd” when the content to be shown to the user is the text “abcd”.
- the internal screen containing the text "abcd” can be displayed on a transparent member so that the text "abcd" is visible to the user.
- the text “abcd” can be displayed to the other party.
- a text with “abcd” symmetrical left and right may be displayed.
- the display 451 includes the text “abcd” so that the text "abcd” is shown to the other party.
- An external screen can be displayed on a transparent member.
- the text "abcd” with the text "abcd” symmetrical left and right may be displayed to the user.
- the display 451 may be placed in a position adjacent to the user's eyes within the electronic device 401.
- the processor displays a screen containing content (e.g., text and/or image) normally visible to the user through a transparent member through the display 451, and includes voice content normally visible to the other party through the additional display.
- the screen can be displayed.
- the electronic device 401 includes a first microphone 411, a second microphone 412, a first camera 421, a second camera 422, a communication module 431, and a first speaker 441. ), the second speaker 442, and the display 451, but is not limited thereto.
- the electronic device 401 may further include at least one of the components included in the electronic device 101 of FIG. 1 or the electronic device 201 of FIG. 2.
- the electronic device 401 includes a first microphone 411, a second microphone 412, a first camera 421, a second camera 422, and a communication module 431. , may not include some of the first speaker 441, the second speaker 442, and the display.
- FIG. 5 is a block diagram of an electronic device 401 according to various embodiments.
- the electronic device 401 includes a microphone 510, a camera 520, a communication module 530, a speaker 540, a display 550, a memory 560, and /Or may include a processor 570.
- the microphone 510 may include the first microphone 411 and/or the second microphone 412 of FIG. 4 .
- the camera 520 may include the first camera 421 and/or the second camera 422 of FIG. 4 .
- Microphone 510 and camera 520 which acquire audio and gestures as input, may be referred to as “input modules.”
- the communication module 530 may be included in the communication module 190 of FIG. 1 or may include the communication module 431 of FIG. 4.
- the speaker 540 may include the first speaker 441 and/or the second speaker 442 of FIG. 4 .
- display 550 may include display 451 of FIG. 4 .
- memory 560 may be included in memory 130 of FIG. 1 .
- memory 560 may store information for performing at least a portion of an operation for providing information.
- the information stored in the memory 560 for performing at least part of the operation to provide information will be described in detail later.
- the memory 560 may include a text to speech (TTS) tone database 561 (also referred to as a “tone TTS model”).
- TTS text to speech
- the TTS tone DB 561 may include unique characteristics of audio (hereinafter referred to as “tone”) to be applied to audio to be output from the electronic device 401.
- tone unique characteristics of audio
- the electronic device 401 may generate various tones to be applied to audio to be output from the electronic device 401 and store them in the memory 560.
- the electronic device 401 may generate a tone corresponding to a person.
- the electronic device 401 may generate a tone corresponding to the user.
- the electronic device 401 may detect that the user is speaking based on the user's face image acquired through the second camera 422. When it is detected that the user is speaking, the electronic device 401 may acquire the voice spoken by the user through the first microphone 411.
- the electronic device 401 may acquire (eg, extract) a tone corresponding to the user based on the acquired user's voice.
- the electronic device 401 may store the acquired tone corresponding to the user in the memory 560.
- the electronic device 401 maps the user information (e.g., information representing the user) and the tone corresponding to the user and stores them in the memory 560. You can.
- the electronic device 401 may generate a tone corresponding to the other party.
- the electronic device 401 may identify the other person based on the image of the other person (e.g., the other person located adjacent to the user wearing the electronic device 401) obtained through the first camera 421.
- the electronic device 401 can acquire the voice spoken by the other party through the second microphone 412.
- the electronic device 401 may acquire (eg, extract) the other party's tone based on the acquired other party's voice.
- the electronic device 401 may store the acquired tone of the other party in the memory 560.
- the electronic device 401 may confirm the location of the other party based on an image acquired through the first camera 421 and/or a voice acquired through the second microphone 412.
- the electronic device 401 uses beam forming through a plurality of microphones included in the second microphone 412 to listen to the other party's voice flowing into the electronic device 401 from the other party ( Example: voice signal corresponding to the other person's voice) can be strengthened.
- the electronic device 401 may map the other party information (e.g., information representing the other party) and the tone corresponding to the other party and store them in the memory 560.
- the electronic device 401 can generate a tone corresponding to an object that can produce sound. For example, the electronic device 401 may identify an object (eg, a pet, an object) that is making a sound (and the location of the object) based on the image acquired through the first camera 421. The electronic device 401 can acquire the sound made by an object through the first microphone 411. The electronic device 401 may acquire a tone corresponding to an object based on the acquired sound. The electronic device 401 may store the tone corresponding to the acquired object in the memory 560. In one embodiment, when a tone corresponding to an object is generated, the electronic device 401 may map the object (eg, information representing the object) and the tone corresponding to the object and store them in the memory 560.
- the electronic device 401 may map the object (eg, information representing the object) and the tone corresponding to the object and store them in the memory 560.
- At least part of the operation of the electronic device 401 to generate a tone may be performed by an external electronic device (eg, the server 108).
- the electronic device 401 (or server) may generate tones corresponding to the user, the other party, and/or the object using a designated algorithm and/or artificial intelligence model.
- the electronic device 401 may receive a tone from an external electronic device through the communication module 530.
- the electronic device 401 may store the received tone in the memory 560.
- processor 570 may be included in processor 120 of FIG. 1 .
- the processor 570 may generally control the operation of providing information.
- processor 570 may include one or more processors to perform operations that provide information. The components included in the processor 570 to perform the operation of providing information will be described in detail with reference to FIG. 6.
- the electronic device 401 includes a microphone 510, a camera 520, a communication module 530, a speaker 540, a display 550, a memory 560, and/or a processor. Although it is illustrated as including (570), it is not limited thereto. For example, it may further include at least one of the components included in the electronic device 401 (101) of FIG. 1 or the electronic device 201 of FIG. 2. For another example, depending on the embodiment, the electronic device 401 includes a microphone 510, a camera 520, a communication module 530, a speaker 540, a display 550, a memory 560, and a processor. (570) may not include some.
- FIG. 6 is a block diagram of processor 570, according to various embodiments.
- the processor 570 may include an input acquisition unit 610, an input analysis unit 620, an output determination unit 630, and/or a signal processing unit 640. there is.
- the input acquisition unit 610 acquires various inputs using an input module (e.g., camera 520 and microphone 510), communication module 530, and/or an external input device. You can.
- an input module e.g., camera 520 and microphone 510
- the input acquisition unit 610 may acquire the user's gesture and/or the other party's gesture as input through the first camera 421.
- the input acquisition unit 610 through the first camera 421, detects the user's gesture (e.g., movement of the user's hand) and/or the other person's gesture (e.g., movement of the other person's hand). Images can be obtained.
- the user's gestures and/or the other person's gestures may include movements of the user's and/or the other person's hands indicative of sign language (also referred to as “sign language”).
- the user's gesture and/or the other party's gesture may include movements corresponding to specified content (or meaning).
- the input acquisition unit 610 may acquire the user's facial expression as input through the second camera 422.
- the input acquisition unit 610 may acquire an image including the user's face through the second camera 422.
- the input acquisition unit 610 may acquire the user's voice input through the first microphone 411 and/or the other party's voice input through the second microphone 412 as input. there is. In one embodiment, the input acquisition unit 610 may acquire ambient sounds of the electronic device 401 input through the second microphone 412 as input.
- the input acquisition unit 610 may acquire, as an input, the other party's voice signal received through the communication module 530 while the user is on the phone with the other party.
- the input acquisition unit 610 may acquire, as input, a user's gesture (e.g., movement of the user's hand) obtained by sensing light emitted from the LED of an input device using a vision method. there is.
- a user's gesture e.g., movement of the user's hand
- the input acquisition unit 610 may acquire, as input, a user's gesture (eg, movement of the user's hand) received from a glove-type input device.
- a user's gesture eg, movement of the user's hand
- the input acquisition unit 610 may obtain, as input, the user's hand movement and/or health information received from the arm band and/or wrist band.
- the inputs that the input acquisition unit 610 can obtain are not limited to the above-described inputs.
- the input analysis unit 620 can check the type of input.
- the input analysis unit 620 determines that the type of input obtained through the input acquisition unit 610 is based on at least one of gesture, voice (and/or ambient sound), user's facial expression, and health information. You can check whether it applies or not.
- the input analysis unit 620 can determine whether the input gesture corresponds to one of the user's gesture and the other party's gesture by analyzing the image acquired through the first camera 421. .
- the input analysis unit 620 may check whether the input voice is a voice uttered by the user or a voice uttered by the other party. For example, the input analysis unit 620 can check whether the input voice is a voice uttered by the user or a voice uttered by the other party by checking the configuration (e.g., device) that obtained the voice. The input analysis unit 620, when the voice is acquired through the first microphone 411 (for example, the strength of the voice signal received through the first microphone 411 is received through the second microphone 412) (if the intensity of the voice signal is greater), it can be confirmed that the input voice is the voice uttered by the user.
- the configuration e.g., device
- the input analysis unit 620 when the voice is acquired through the second microphone 412 (for example, the strength of the voice signal received through the second microphone 412 is received through the first microphone 411) (if the intensity of the voice signal is greater than that of the voice signal), it can be confirmed that the input voice is the voice uttered by the other party.
- the input analysis unit 620 may check whether the input voice is a voice uttered by the user or a voice uttered by the other party, based on the timbre of the input voice. If the timbre of the input voice corresponds to the user, the input analysis unit 620 may confirm that the input voice is a voice uttered by the user. If the timbre of the input voice corresponds to that of the other party, the input analysis unit 620 may confirm that the input voice is the voice uttered by the other party.
- the input analysis unit 620 may confirm that the input is the user's facial expression by analyzing the image acquired through the second camera 422.
- the input analysis unit 620 may confirm that the input is health information.
- the input analysis unit 620 may convert the input obtained through the input acquisition unit 610 into text.
- the input analysis unit 620 may check whether the input obtained through the input acquisition unit 610 can be converted to text. If the obtained input can be converted into text, the input analysis unit 620 may convert information corresponding to the obtained input (eg, information indicated by the obtained input) into text. For example, the input analysis unit 620 may check whether the input gesture (eg, the user's gesture and/or the other party's gesture) corresponds to a sign language. The input analysis unit 620 can check whether the input gesture corresponds to a sign language by analyzing the image of the gesture acquired through the first camera 421. If the input gesture corresponds to a sign language, the input analysis unit 620 may confirm that the input gesture can be converted to text.
- the input analysis unit 620 may check whether the input obtained through the input acquisition unit 610 can be converted to text. If the obtained input can be converted into text, the input analysis unit 620 may convert information corresponding to the obtained input (eg, information indicated by the obtained input) into text. For example, the input analysis unit 620 may check whether the input gesture (
- the input analysis unit 620 can convert the content of the sign language indicated by the input gesture into text. For another example, the input analysis unit 620 determines that the input gesture (e.g., the user's gesture and/or the other party's gesture) is a designated gesture (e.g., a gesture stored by being mapped to specified content in the memory 560). You can check whether it corresponds to . The input analysis unit 620 may check whether the input gesture corresponds to a specified gesture by analyzing the image of the gesture acquired through the first camera 421. If the input gesture corresponds to a designated gesture, the input analysis unit 620 may confirm that the input gesture can be converted to text. The input analysis unit 620 may convert the input gesture into text containing information corresponding to the specified gesture.
- the input analysis unit 620 determines that the input gesture (e.g., the user's gesture and/or the other party's gesture) is a designated gesture (e.g., a gesture stored by being mapped to specified content in the memory 560). You can check whether it correspond
- the input analysis unit 620 may check whether the input user's facial expression corresponds to a specified facial expression (eg, a facial expression stored in the memory 560).
- the input analysis unit 620 may check the user's facial expression by analyzing the image of the user's face obtained through the second camera 422. If the user's facial expression corresponds to a specified facial expression, the input analysis unit 620 may confirm that the input user's facial expression can be converted to text.
- the input analysis unit 620 may convert the input user's facial expression into text containing content representing the input user's facial expression (or emotion corresponding to the input user's facial expression).
- the input analysis unit 620 may check whether the input user's voice and/or the other party's voice can be converted into text.
- the input analysis unit 620 may convert the input user's voice and/or the other party's voice into text when the input user's voice and/or the other party's voice can be converted into text.
- the input analysis unit 620 may convert the input user's voice and/or the other party's voice into text using a speech to text (STT) program.
- STT speech to text
- the input analysis unit 620 may check whether the other party's voice signal received through the communication module 530 can be converted into text.
- the input analysis unit 620 may convert the other party's voice signal into text if the other party's voice signal can be converted into text.
- the input analysis unit 620 may check whether health information received from an external input device (eg, arm band and/or wrist band) can be converted into text. If the health information can be converted into text, the input analysis unit 620 may convert the health information into text.
- an external input device eg, arm band and/or wrist band
- the output determination unit 630 may determine whether to output information corresponding to the input through one or more speakers. For example, the output determination unit 630 determines whether to output information corresponding to the input through one or more speakers (e.g., the first speaker 441 and/or the second speaker 442) and/or displays You can decide whether to output it or not through (550).
- the output determination unit 630 determines whether to output information corresponding to the input through one or more speakers (e.g., the first speaker 441 and/or the second speaker 442) and/or displays You can decide whether to output it or not through (550).
- the output determination unit 630 may determine whether to output information corresponding to the input through the speaker 540, based on the user input. For example, the output determination unit 630 may determine to output information corresponding to the input through the speaker 540 based on the user input through the virtual keyboard displayed through the display 550. For another example, when the input user's voice and/or user's gesture corresponds to the designated user's voice and/or user's gesture, the output determination unit 630 sends information corresponding to the input to the speaker 540. You can decide to print it through .
- the output determination unit 630 may determine whether to display the information corresponding to the input through the display 550 when it is determined not to output the information corresponding to the input through the speaker 540. there is.
- the output determination unit 630 may determine to output information corresponding to the input using both the speaker 540 and the display 550.
- the output determination unit 630 may determine a configuration for outputting information corresponding to the input, based on the type of input.
- the output determination unit 630 may output information corresponding to the user's voice through the first speaker 441. If the type of input is the user's voice, the output determination unit 630 is expected to display an internal screen containing information corresponding to the user's voice (e.g., text corresponding to the user's voice) through the display 550. You can decide.
- the output determination unit 630 when the type of input is the user's voice, the output determination unit 630 outputs information corresponding to the user's voice through the first speaker 441, and simultaneously outputs information corresponding to the user's voice. It may be decided to display an internal screen containing information (e.g., text corresponding to the user's voice) through the display 550.
- the output determination unit 630 When the type of input is the other party's voice, the output determination unit 630 outputs information corresponding to the other party's voice through the second speaker 442, and simultaneously outputs an external signal containing information corresponding to the other party's voice. It may be decided to display the screen through the display 550. However, it is not limited to this.
- the output determination unit 630 when the type of input is the user's voice, the output determination unit 630 outputs information corresponding to the user's voice through the first speaker 441, and simultaneously outputs information corresponding to the user's voice. It may be decided to display an external screen including through the display 550. For another example, when the type of input is the other party's voice, the output determination unit 630 outputs the other party's voice through the second speaker 442 and simultaneously includes information corresponding to the other party's voice. It may be decided to display the internal screen through the display 550.
- the output determination unit 630 when the type of input is the user's voice or the other party's voice, the output determination unit 630 provides information corresponding to the user's voice or the other party's voice with the language of the user's voice or the other party's voice. Can be translated into other languages. The output determination unit 630 may determine whether to display information corresponding to the user's voice or the other party's voice translated into another language through the display 550.
- the output determination unit 630 may output information corresponding to the user's gesture through the first speaker 441.
- the output determination unit 630 displays an external screen 550 containing information corresponding to the user's gesture (e.g., text indicating information corresponding to the user's gesture). You can decide to display it through. If the type of input is the other person's gesture, the output determination unit 630 may output information corresponding to the other person's gesture through the second speaker 442.
- the output determination unit 630 displays an internal screen 550 containing information corresponding to the other person's gesture (e.g., text indicating information corresponding to the other person's gesture). You can decide to display it through.
- the output determination unit 630 when the type of input is a user's gesture, the output determination unit 630 outputs information corresponding to the user's gesture through the first speaker 441, and simultaneously outputs information corresponding to the user's gesture. It may be decided to display an external screen containing information (e.g., text indicating information corresponding to the user's gesture) through the display 550.
- the output determination unit 630 When the type of input is the other party's gesture, the output determination unit 630 outputs information corresponding to the other party's gesture through the second speaker 442, and simultaneously outputs information corresponding to the other party's gesture (e.g., the other party's gesture). It may be decided to display an internal screen including text indicating information corresponding to the gesture through the display 550.
- the output determination unit 630 is based on the surrounding environment of the electronic device 401 (e.g., surrounding sounds, brightness outside the electronic device 401, and the distance between the electronic device 401 and the other party). , it is possible to determine whether to output information corresponding to the input through the speaker 540.
- the output determination unit 630 determines whether to output the input user's facial expression (and/or the user's emotion whose input corresponds to the user's facial expression) and/or health information through the speaker 540. You can decide whether or not.
- the output determination unit 630 may acquire the user's emotion or the other party's emotion based on the input user's voice or the other party's voice. The output determination unit 630 may determine whether to output information representing the user's emotions or the other party's emotions through the speaker 540.
- the output determination unit 630 may determine whether to output information corresponding to the multiple inputs through the speaker 540. For example, when a plurality of inputs are obtained, the output determination unit 630 sends information corresponding to the plurality of inputs to the speaker 540 and/or the display ( 550), you can decide whether to output it or not.
- the output determination unit 630 when a plurality of inputs are obtained, the output determination unit 630 outputs audio representing information corresponding to the plurality of inputs (e.g., audio converted from text representing information corresponding to each of the plurality of inputs). It may be decided to output through the speaker 540. For example, when the first input and the second input are obtained, the output determination unit 630 outputs first audio representing information corresponding to the first input and second audio representing information corresponding to the second input. , At the same time, it may be decided to output through the speaker 540. In one embodiment, when the output determination unit 630 determines to output audio representing information corresponding to a plurality of inputs through the speaker 540, the audio representing information corresponding to the plurality of inputs has different tones. To have, you can.
- the output determination unit 630 applies the user's tone to the audio representing information corresponding to the user's gesture and outputs the user's tone corresponding to the other person's gesture. You can decide to apply the other party's tone to the audio representing the information. However, it is not limited to this.
- the output determination unit 630 may allow audio representing information corresponding to a plurality of inputs to have different levels (or volumes). For example, when the user's gesture and the other party's gesture are input at the same time, the output determination unit 630 causes the audio representing information corresponding to the user's gesture to have a first level and outputs the audio corresponding to the other party's gesture.
- Audio representing information can have a second level that is higher than the first level.
- the output determination unit 630 may determine to sequentially output audio representing information corresponding to a plurality of inputs. For example, when the user's gesture and the other party's gesture are input at the same time, the output determination unit 630 outputs audio representing information corresponding to the user's gesture and then continuously outputs information corresponding to the other party's gesture. You can decide to output the audio it represents.
- the output determination unit 630 may assign (or give) priority to the multiple inputs. For example, the output determination unit 630 may assign a higher priority to the user's gesture than the other person's gesture.
- the output determination unit 630 determines the tone of audio, the level of audio, and/or the output order of audio representing information corresponding to the plurality of inputs, based on the priority of the plurality of inputs. You can. For example, when the first input is assigned a higher priority than the second input, the output determination unit 630 determines to output audio having the first tone for the first input, and outputs audio having the first tone for the first input. It may be decided to output audio having a second tone. For another example, when the first input is assigned a higher priority than the second input, the output determination unit 630 determines to output audio having the first level for the first input, and outputs the audio having the first level for the first input.
- the output determination unit 630 converts audio representing information corresponding to the first input into information corresponding to the second input. You can decide what to output before the audio.
- the output determination unit 630 may set priorities assigned to a plurality of inputs based on user input.
- the method by which the output determination unit 630 sets priorities for multiple inputs is not limited to user input.
- the output determination unit 630 may determine to output information corresponding to the plurality of inputs through the display 550. For example, when at least two inputs are obtained among the user's gesture, the user's voice, and the user's health information, the output determination unit 630 outputs the at least two acquired inputs through the display 550. You can decide what to do.
- the output determination unit 630 determines the sizes of the texts, the colors of the texts, and the area on the transparent member where the texts are to be output so that texts (and/or images) representing information corresponding to at least two inputs are distinguished from each other. You may decide to output different languages, and/or texts.
- the method of outputting texts representing information corresponding to at least two inputs obtained by the output determination unit 630 through the display 550 so that they are distinguished from each other is not limited to the above-described example.
- the output determination unit 630 when a plurality of inputs are obtained, the output determination unit 630 outputs information corresponding to the plurality of inputs through the display 550 and the speaker 540 using an avatar. You can decide what to do. For example, when the user's gesture, the user's voice, and the user's facial expression (and health information) are input, the output determination unit 630 causes the avatar corresponding to the user to make a movement corresponding to the user's gesture.
- the display 550 can be controlled to display an expression corresponding to the user's facial expression.
- the output determination unit 630 may determine whether to apply a tone corresponding to the avatar corresponding to the user to audio representing information corresponding to the user's voice.
- the output determination unit 630 may determine to transmit an audio signal related to the user's gesture and/or the user's voice to the other party's electronic device while the user is making a call with the other party. In one embodiment, the output determination unit 630 may determine whether to use an audio signal related to the other party's gesture and/or the other party's voice through a speaker while the user is making a call with the other party.
- the signal processor 640 may process information corresponding to the input based on the decision of the output determination unit 630. For example, when the output determination unit 630 determines to output audio representing information corresponding to the input through a speaker, the signal processing unit 640 uses a text to speech (TTS) program to respond to the input. Text representing information can be converted into audio. When text representing information corresponding to input is converted into audio, it may be output through a speaker. For another example, when the output determination unit 630 determines to apply the first tone to the audio representing information corresponding to the input, the signal processing unit 640 selects the first tone from the TTS tone DB 561. can be obtained. The signal processing unit 640 may apply the first tone to audio representing information corresponding to the input.
- TTS text to speech
- the signal processing unit 640 mixes audio representing the information corresponding to the plurality of inputs. By mixing, audio representing information corresponding to a plurality of inputs can be output simultaneously.
- the present invention is not limited to this, and the signal processing unit 640 may perform a signal processing operation according to the decision of the output determination unit 630.
- the electronic device 401 includes one or more input modules (e.g., microphone 510 and camera 520), one or more speakers (e.g., speaker 540), and a display ( e.g. display 550), and the one or more input modules (e.g. microphone 510 and camera 520), the one or more speakers (e.g. speaker 540), and the display (e.g. display (550)) and at least one processor (e.g., processor 570) operatively connected to the one or more input modules (e.g., microphone Obtain input through (510) and camera 520), check the type of the input, and determine whether to output information corresponding to the input through the one or more speakers (e.g., speaker 540).
- input modules e.g., microphone 510 and camera 520
- the one or more speakers e.g. speaker 540
- a display e.g. display 550
- processor e.g., processor 570
- the information corresponding to the input is determined to be output through the one or more speakers (e.g., speaker 540). It may be configured to control the one or more speakers so that output is output through one or more speakers (eg, speaker 540).
- the at least one processor may be further configured to convert the obtained input into text.
- the at least one processor transmits information corresponding to the input to the one or more speakers (e.g., speaker) based on at least one of a user input or a type of the input. It may be configured to determine whether to output through (540)).
- the at least one processor may be configured to determine a tone to be applied to audio representing information corresponding to the input.
- the at least one processor obtains a plurality of inputs through the one or more input modules (e.g., microphone 510 and camera 520), and Based on the types of the plurality of inputs, it may be configured to display information corresponding to the plurality of inputs and determine different tones to be applied to audio to be output at the same time.
- the one or more input modules e.g., microphone 510 and camera 520
- the at least one processor when the type of input is a gesture and/or voice of the user of the electronic device 401, the first of the one or more speakers It is determined to output information corresponding to the user's gesture and/or voice through the speaker 441, and when the type of input is the other party's gesture and/or voice, a second speaker among the one or more speakers Through 442, it may be determined to output information corresponding to the other party's gesture and/or voice.
- processor 570 when the type of input is a gesture and/or voice of the user of the electronic device 401, the first of the one or more speakers It is determined to output information corresponding to the user's gesture and/or voice through the speaker 441, and when the type of input is the other party's gesture and/or voice, a second speaker among the one or more speakers Through 442, it may be determined to output information corresponding to the other party's gesture and/or voice.
- the at least one processor is configured to input information from a user of the electronic device 401 through the one or more input modules (e.g., microphone 510 and camera 520). Obtaining a gesture input and a voice input of the user, and determining a first tone to be applied to the first audio representing information corresponding to the user's gesture input, indicating information corresponding to the user's voice input and It may be configured to determine a second tone to be applied to the second audio to be output simultaneously with the first audio.
- the one or more input modules e.g., microphone 510 and camera 520.
- the at least one processor operates on the display (e.g., display 550) when the type of input is a gesture and/or voice of the user of the electronic device 401. )), determines to display information corresponding to the user's gesture and/or voice through the external screen, and when the type of input is the other person's gesture and/or voice, the display (e.g. display (550) )) may be configured to determine whether to output information corresponding to the other party's gesture and/or voice through the internal screen of the device.
- the electronic device 401 further includes a communication module (e.g., communication module 530), and the at least one processor (e.g., processor 570) allows the electronic device 401 to When a user's gesture of the electronic device 401 is input while making a call with the external electronic device 401, information corresponding to the user's gesture is provided through the communication module (e.g., communication module 530). may be further configured to transmit to the external electronic device 401.
- a communication module e.g., communication module 530
- the at least one processor e.g., processor 570
- the at least one processor obtains information about the surrounding environment of the electronic device 401, and obtains information about the surrounding environment of the electronic device 401. Based on this, it may be further configured to determine whether to output information corresponding to the input through the one or more speakers (eg, speaker 540).
- FIG. 7 is a flowchart 700 illustrating a method of providing information according to various embodiments.
- processor 570 may obtain input through one or more input modules.
- the processor 570 may obtain the user's gesture and/or the other party's gesture as input through the first camera 421.
- the processor 570 through the first camera 421, images of the user's gesture (e.g., movement of the user's hand) and/or the other person's gesture (e.g., movement of the other person's hand). It can be obtained.
- the user's gestures and/or the other person's gestures may include movements of the user's and/or the other person's hands indicative of sign language (also referred to as “sign language”).
- the user's gesture and/or the other party's gesture may include movements corresponding to specified content (or meaning).
- the processor 570 may obtain the user's facial expression as input through the second camera 422.
- the processor 570 may obtain an image including the user's face through the second camera 422.
- the processor 570 may obtain the user's voice input through the first microphone 411 and/or the other party's voice input through the second microphone 412 as input. In one embodiment, the processor 570 may obtain ambient sounds of the electronic device 401 input through the second microphone 412 as input.
- processor 570 may obtain input through communication module 530. For example, while the user is on the phone with the other party, the processor 570 may obtain the other party's voice signal received through the communication module 530 as an input.
- processor 570 may obtain input using an external input device.
- the processor 570 may obtain, as input, a user's gesture (eg, movement of the user's hand) obtained by sensing light emitted from the LED of an input device using a vision method.
- the processor 570 may obtain, as input, a user's gesture (eg, movement of the user's hand) received from a glove-type input device.
- processor 570 may obtain, as input, the user's hand movements and/or health information received from an arm band and/or wrist band.
- inputs that the processor 570 can obtain are not limited to the above-described inputs.
- processor 570 may determine the type of input.
- processor 570 determines whether the type of input obtained through operation 701 corresponds to at least one of gesture, voice (and/or ambient sound), user's facial expression, and health information. You can.
- the processor 570 may determine whether the input gesture corresponds to one of the user's gesture and the other party's gesture by analyzing the image acquired through the first camera 421.
- the processor 570 may check whether the input voice is a voice uttered by the user or a voice uttered by the other party. For example, the processor 570 can check whether the input voice is a voice uttered by the user or a voice uttered by the other party by checking the configuration (e.g., device) that acquired the voice. When the voice is acquired through the first microphone 411, the processor 570 may confirm that the input voice is a voice uttered by the user. If the voice is acquired through the second microphone 412, the processor 570 may confirm that the input voice is the voice uttered by the other party.
- the configuration e.g., device
- the processor 570 may check whether the input voice is a voice uttered by the user or a voice uttered by the other party, based on the timbre of the input voice. If the timbre of the input voice corresponds to the user, the processor 570 may confirm that the input voice is a voice uttered by the user. If the timbre of the input voice corresponds to that of the other party, the processor 570 may confirm that the input voice is the voice uttered by the other party.
- the processor 570 may confirm that the input is the user's facial expression by analyzing the image acquired through the second camera 422.
- the processor 570 may confirm that the input is health information.
- processor 570 may convert the obtained input into text.
- processor 570 may check whether the obtained input can be converted to text. If the obtained input can be converted into text, the processor 570 may convert information corresponding to the obtained input (eg, information indicated by the acquired input) into text. For example, the processor 570 may check whether the input gesture (eg, the user's gesture and/or the other party's gesture) corresponds to a sign language. The processor 570 can check whether the input gesture corresponds to a sign language by analyzing the image of the gesture acquired through the first camera 421. If the input gesture corresponds to a sign language, the processor 570 may confirm that the input gesture can be converted to text. The processor 570 can convert the content of the sign language indicated by the input gesture into text.
- the input gesture eg, the user's gesture and/or the other party's gesture
- the processor 570 can check whether the input gesture corresponds to a sign language by analyzing the image of the gesture acquired through the first camera 421. If the input gesture corresponds to a sign language, the processor 570 may confirm that the input gesture can
- the processor 570 may correspond to an input gesture (e.g., a user's gesture and/or a counterpart's gesture) to a specified gesture (e.g., a gesture stored in the memory 560 by being mapped to specified content). You can check whether it is working or not.
- the processor 570 may check whether the input gesture corresponds to the specified gesture by analyzing the image of the gesture acquired through the first camera 421. If the input gesture corresponds to a designated gesture, the processor 570 may confirm that the input gesture can be converted to text. The processor 570 may convert the input gesture into text containing information corresponding to the specified gesture.
- the processor 570 may check whether the input user's facial expression corresponds to a specified facial expression (eg, a facial expression stored in the memory 560).
- the processor 570 may check the user's facial expression by analyzing the image of the user's face obtained through the second camera 422. If the user's facial expression corresponds to a specified facial expression, the processor 570 may confirm that the input user's facial expression can be converted to text.
- the processor 570 may convert the input user's facial expression into text containing content representing the input user's facial expression (or emotion corresponding to the input user's facial expression).
- the processor 570 may check whether the input user's voice and/or the other party's voice can be converted into text.
- the processor 570 may convert the input user's voice and/or the other party's voice into text.
- the processor 570 may convert the input user's voice and/or the other party's voice into text using an STT program.
- the processor 570 may check whether the other party's voice signal received through the communication module 530 can be converted into text. If the other party's voice signal can be converted into text, the processor 570 may convert the other party's voice signal into text.
- the processor 570 may check whether health information received from an external input device (eg, arm band and/or wrist band) can be converted into text. If the health information can be converted into text, the processor 570 may convert the health information into text.
- an external input device eg, arm band and/or wrist band
- the processor 570 may determine whether to output information corresponding to the input through the speaker 540. For example, the processor 570 determines whether to output information corresponding to the input through one or more speakers (e.g., the first speaker 441, the second speaker 442) and/or the display 550. You can decide whether to print it or not.
- one or more speakers e.g., the first speaker 441, the second speaker 442
- the display 550 You can decide whether to print it or not.
- the processor 570 may determine whether to output information corresponding to the input through the speaker 540, based on the user input. For example, the processor 570 may determine to output information corresponding to the input through the speaker 540 based on a user input through a virtual keyboard displayed through the display 550. For another example, when the input user's voice and/or user's gesture corresponds to the designated user's voice and/or user's gesture, the processor 570 transmits information corresponding to the input through the speaker 540. You can decide what to print.
- the processor 570 may determine whether to display information corresponding to the input through the display 550.
- the processor 570 may determine to output information corresponding to the input using both the speaker 540 and the display 550.
- the processor 570 may determine whether to output information corresponding to the input through the speaker 540, based on the type of input.
- the processor 570 may determine whether to output information corresponding to the input through the speaker 540 based on the user input and/or the type of input.
- the processor 570 may determine a configuration for outputting information corresponding to the input, based on the type of input. In one embodiment, when the type of input is the user's voice, the processor 570 may output information corresponding to the user's voice through the first speaker 441. If the type of input is the user's voice, the processor 570 may determine to display an internal screen containing information corresponding to the user's voice (e.g., text corresponding to the user's voice) through the display 550. there is.
- the processor 570 when the type of input is the user's voice, the processor 570 outputs information corresponding to the user's voice through the first speaker 441, and simultaneously outputs information corresponding to the user's voice ( For example, it may be decided to display an internal screen including text corresponding to the user's voice through the display 550.
- the processor 570 When the type of input is the other party's voice, the processor 570 outputs information corresponding to the other party's voice through the second speaker 442, and simultaneously displays an external screen containing information corresponding to the other party's voice. It may be decided to display it through the display 550. However, it is not limited to this.
- the processor 570 when the type of input is the user's voice, the processor 570 outputs information corresponding to the user's voice through the first speaker 441 and simultaneously includes information corresponding to the user's voice. It may be decided to display the external screen through the display 550.
- the processor 570 when the type of input is the other party's voice, the processor 570 outputs the other party's voice through the second speaker 442 and simultaneously displays an internal screen containing information corresponding to the other party's voice. It may be decided to display through the display 550.
- the processor 570 when the type of input is the user's voice or the other party's voice, the processor 570 provides information corresponding to the user's voice or the other party's voice in a language different from the language of the user's voice or the other party's voice. It can be translated as The processor 570 may determine to display information corresponding to the user's voice or the other party's voice, translated into another language, through the display 550.
- the processor 570 may output information corresponding to the user's gesture through the first speaker 441.
- the processor 570 displays an external screen containing information corresponding to the user's gesture (e.g., text indicating information corresponding to the user's gesture) through the display 550. You can decide to do it.
- the processor 570 may output information corresponding to the other person's gesture through the second speaker 442.
- the processor 570 displays an internal screen containing information corresponding to the other person's gesture (e.g., text indicating information corresponding to the other person's gesture) through the display 550. You can decide to do it.
- information corresponding to the other person's gesture e.g., text indicating information corresponding to the other person's gesture
- the processor 570 when the type of input is a user's gesture, the processor 570 outputs information corresponding to the user's gesture through the first speaker 441, and simultaneously outputs information corresponding to the user's gesture (for example, it may be decided to display an external screen including text indicating information corresponding to the user's gesture) through the display 550.
- the processor 570 When the type of input is the other party's gesture, the processor 570 outputs information corresponding to the other party's gesture through the second speaker 442, and simultaneously outputs information corresponding to the other party's gesture (e.g., the other party's gesture). It may be decided to display an internal screen including text representing information corresponding to (text) through the display 550.
- the processor 570 is configured to monitor the surrounding environment of the electronic device 401 (e.g., ambient sounds, brightness outside the electronic device 401 (e.g., intensity of light incident on the electronic device 401), and electronic device 401. Based on the distance between the device 401 and the other party, it can be determined whether to output information corresponding to the input through the speaker.
- the surrounding environment of the electronic device 401 e.g., ambient sounds, brightness outside the electronic device 401 (e.g., intensity of light incident on the electronic device 401)
- the processor 570 is configured to monitor the surrounding environment of the electronic device 401 (e.g., ambient sounds, brightness outside the electronic device 401 (e.g., intensity of light incident on the electronic device 401), and electronic device 401. Based on the distance between the device 401 and the other party, it can be determined whether to output information corresponding to the input through the speaker.
- the processor 570 determines whether to output the input user's facial expression (and/or the user's emotion whose input corresponds to the user's facial expression) and/or health information through the speaker 540. You can decide.
- the processor 570 may acquire the user's emotion or the other party's emotion based on the input user's voice or the other party's voice. The processor 570 may determine whether to output information representing the user's emotions or the other party's emotions through the speaker 540.
- the processor 570 may determine whether to output information corresponding to the multiple inputs through the speaker 540. For example, when a plurality of inputs are obtained, the processor 570 sends information corresponding to the plurality of inputs to the speaker 540 and/or the display 550 based on the user input or the type of the plurality of inputs. Through this, you can decide whether to output or not.
- the processor 570 when a plurality of inputs are obtained, sends information corresponding to the plurality of inputs (e.g., audio converted from text representing information corresponding to each of the plurality of inputs) to the speaker 540. ) can be decided to output. For example, when a first input and a second input are obtained, the processor 570 simultaneously outputs first audio representing information corresponding to the first input and second audio representing information corresponding to the second input. , it can be decided to output through the speaker 540. In one embodiment, when the processor 570 determines to output information corresponding to a plurality of inputs through the speaker 540, the processor 570 configures audio representing the information corresponding to the plurality of inputs to have different tones. You can.
- the processor 570 applies the user's tone to the audio representing information corresponding to the user's gesture and provides information corresponding to the other party's gesture. You can decide to apply the other party's tone to the displayed audio. However, it is not limited to this.
- the processor 570 may cause audio representing information corresponding to a plurality of inputs to have different levels (or volumes). For example, when the user's gesture and the other party's gesture are input at the same time, the processor 570 causes the audio representing information corresponding to the user's gesture to have a first level and provides information corresponding to the other party's gesture. The indicated audio may have a second level that is higher than the first level.
- the processor 570 may determine to sequentially output audio representing information corresponding to a plurality of inputs. For example, when the user's gesture and the other party's gesture are input at the same time, the processor 570 outputs audio indicating information corresponding to the user's gesture, and then sequentially outputs audio indicating information corresponding to the other party's gesture. You can decide to output .
- the processor 570 may assign priorities to the multiple inputs. For example, the processor 570 may assign a higher priority to the user's gesture than the other party's gesture.
- the processor 570 may determine the timbre of audio, the level of audio, and/or the output order of audio representing information corresponding to the plurality of inputs, based on the priorities of the plurality of inputs. . For example, if the first input is assigned a higher priority than the second input, the processor 570 determines to output audio with the first tone for the first input and outputs audio with the first tone for the second input. It may be decided to output audio having a second tone. For another example, when the first input is assigned a higher priority than the second input, the processor 570 determines to output audio having a first level for the first input and outputs audio having a first level to the second input. For this reason, it may be determined to output audio having a second level lower than the first level. For another example, when the first input is assigned a higher priority than the second input, the processor 570 selects audio representing information corresponding to the first input more than audio representing information corresponding to the second input. You can decide what to print first.
- the processor 570 may set priorities assigned to a plurality of inputs based on user input (eg, user input through a virtual keyboard).
- user input e.g, user input through a virtual keyboard
- the method by which the processor 570 sets priorities for multiple inputs is not limited to user input.
- the processor 570 may determine to output information corresponding to the plurality of inputs through the display 550. For example, when at least two inputs are obtained among the user's gesture, the user's voice, the user input through the virtual keyboard, and the user's health information, the processor 570 displays the at least two obtained inputs ( 550), you can decide what to output.
- the processor 570 includes sizes of the texts, colors of the texts, areas on the transparent member where the texts are to be output, so that texts (and/or images) representing information corresponding to at least two inputs are distinguished from each other. and/or determine to output different languages of the text.
- the method of outputting texts representing information corresponding to at least two inputs obtained by the processor 570 through the display 550 so that they are distinguished from each other is not limited to the above-described example.
- the processor 570 may determine to output information corresponding to the plurality of inputs through the display 550 and the speaker 540 using an avatar.
- the processor 570 causes the avatar corresponding to the user to perform a movement corresponding to the user's gesture.
- the display 550 can be controlled to display an expression corresponding to the user's facial expression.
- the processor 570 may determine to apply the tone of the avatar corresponding to the user to audio representing information corresponding to the user's voice.
- the processor 570 may determine to transmit an audio signal related to the user's gesture and/or the user's voice to the other party's electronic device while the user is on a call with the other party. In one embodiment, the processor 570 may determine whether to transmit audio signals related to the other party's gestures and/or the other party's voice through the speaker 540 while the user is making a call with the other party.
- the processor 570 may output information corresponding to the input through the speaker 540, based on the type of input. For example, the processor 570 may output information corresponding to the input through the speaker 540, based on determining that information corresponding to the input will be output through the speaker 540.
- processor 570 may process information corresponding to the input. For example, when the processor 570 determines to output audio representing information corresponding to the input through a speaker, the processor 570 may convert text representing information corresponding to the input into audio using a TTS program. The processor 570 may convert text representing information corresponding to the input into audio and then output the converted audio through the speaker 540. For another example, when the processor 570 determines to apply the first tone to audio representing information corresponding to the input, the processor 570 may obtain the first tone from the TTS tone DB 561. The processor 570 may apply the first tone to audio representing information corresponding to the input.
- the processor 570 mixes audio representing the information corresponding to the plurality of inputs, Audio representing information corresponding to a plurality of inputs can be output simultaneously.
- Audio representing information corresponding to a plurality of inputs can be output simultaneously.
- it is not limited to this.
- the operation of determining whether to output information corresponding to the input of operation 705 through the speaker 540 is illustrated as being performed after operations 701 and 703 are performed, but is not limited thereto.
- the processor 570 determines whether to output through the speaker 540 (and/or display ( 550), it is possible to decide whether to output it or not.
- the processor 570 may select a speaker for input to be obtained through one or more input modules based on user input and/or electronic device 401 settings. It is possible to determine whether to output through 540 (and/or whether to output through display 550).
- FIG. 8 is a flowchart 800 illustrating a method of providing information corresponding to a gesture, according to various embodiments.
- the processor 570 may obtain input through one or more input modules.
- the processor 570 may obtain a gesture input related to the user's gesture and/or the other party's gesture through one or more input modules (eg, the first camera 421).
- the processor 570 uses an external input device (e.g., a vision-based input device, a glove-type input device, or an arm band and/or a wrist band) to input a gesture related to the user's gesture. can be obtained.
- an external input device e.g., a vision-based input device, a glove-type input device, or an arm band and/or a wrist band
- the processor 570 may confirm that the type of input is a gesture input.
- the processor 570 may confirm that the type of input is a gesture input related to the user's gesture and/or the other party's gesture.
- the processor 570 may determine whether the input gesture corresponds to one of the user's gesture and the other party's gesture by analyzing the image acquired through the first camera 421.
- the processor 570 receives information from an external input device (e.g., a vision-based input device, a glove-type input device, or an arm band and/or wrist band) through the communication module 530. By analyzing the information, it can be confirmed that the type of input is the user's gesture input.
- an external input device e.g., a vision-based input device, a glove-type input device, or an arm band and/or wrist band
- processor 570 may convert gesture input to text.
- the processor 570 may check whether the gesture input can be converted to text. For example, if the gesture input (e.g., the user's gesture input and/or the other person's gesture input) corresponds to a sign language, the processor 570 may confirm that the gesture input can be converted to text. If it is confirmed that the gesture input can be converted to text, the processor 570 may convert the gesture input (e.g., the contents of a sign language) into text. For another example, the processor 570 may determine that the gesture input can be converted to text if the gesture input (e.g., the user's gesture input and/or the other party's gesture input) corresponds to a designated gesture input. If it is confirmed that the gesture input can be converted into text, the processor 570 may convert the gesture input (eg, information corresponding to the specified gesture) into text.
- the processor 570 may convert the gesture input (eg, information corresponding to the specified gesture) into text.
- the processor 570 may determine whether to output information corresponding to the gesture input through the speaker 540. For example, the processor 570 determines whether to output information corresponding to the gesture input through one or more speakers (e.g., the first speaker 441 and the second speaker 442) and/or the display 550. You can decide whether to print it or not.
- one or more speakers e.g., the first speaker 441 and the second speaker 442
- the display 550 You can decide whether to print it or not.
- the processor 570 may determine to output audio representing information corresponding to the user's gesture through the second speaker 442, based on the settings. For example, the user may set (or “mode”) a setting (or “mode”) to output audio representing information corresponding to the user’s gestures through the second speaker 442 in order to hear audio representing information corresponding to the user’s own gestures. ) (hereinafter referred to as “first setting”) can be set.
- the processor 570 selects the user's tone (or by the user) for audio representing information corresponding to the user's gesture. You can decide to apply the specified tone.
- the processor 570 displays information corresponding to the user's gesture. It may be determined to apply a tone corresponding to the user's tone and/or the user's facial expression (or an emotion corresponding to the user's facial expression) to the audio.
- the processor 570 is configured to set a first setting and, in addition to the user's gesture input, receive the user's health information (e.g., heart rate, body fat percentage, When an electrical signal of a nerve cell) is received, it may be determined to apply the user's tone and/or the tone corresponding to the user's health information to the audio representing information corresponding to the user's gesture.
- the user's health information e.g., heart rate, body fat percentage
- the processor 570 sets the first setting, inputs the user's facial expression through the second camera 422 in addition to the user's gesture input, and uses an external input device (e.g., an arm band and/or or a wrist band), apply the user's tone, the user's facial expression, and/or a tone corresponding to the user's health information to the audio representing information corresponding to the user's gesture. You can decide.
- an external input device e.g., an arm band and/or or a wrist band
- the processor 570 may determine to output audio representing information corresponding to the user's gesture through the first speaker 441, based on the settings. For example, the user may provide information corresponding to the user's gesture so that the other party located adjacent to the electronic device 401 (or the user of the electronic device 401) hears audio representing information corresponding to the user's gesture.
- a setting (hereinafter referred to as “second setting”) so that the audio representing is output through the first speaker 441 can be set.
- the processor 570 selects the user's tone (or the user's voice) for audio representing information corresponding to the user's gesture. You can decide to apply the tone specified by .
- the processor 570 displays information corresponding to the user's gesture when the second setting is set and the user's facial expression is input through the second camera 422 in addition to the user's gesture input. It may be determined to apply a tone corresponding to the user's tone and/or the user's facial expression (or an emotion corresponding to the user's facial expression) to the audio.
- the processor 570 sets the second setting and, in addition to the user's gesture input, receives the user's health information (e.g., heart rate, body fat percentage, When an electrical signal of a nerve cell) is received, it may be determined to apply the user's tone and/or the tone corresponding to the user's health information to the audio representing information corresponding to the user's gesture.
- the user's health information e.g., heart rate, body fat percentage
- the processor 570 sets the second setting, inputs the user's facial expression through the second camera 422 in addition to the user's gesture input, and uses an external input device (e.g., an arm band and/or or a wrist band), apply the user's tone, the user's facial expression, and/or a tone corresponding to the user's health information to the audio representing information corresponding to the user's gesture. You can decide.
- an external input device e.g., an arm band and/or or a wrist band
- the processor 570 when the second setting is set, the processor 570 outputs audio representing information corresponding to the user's gesture input based on the other party's information (e.g., the other party's gender, age, and/or occupation). You can decide which tone will be applied. For example, when the second setting is set and the type of input is the user's gesture input, the processor 570 may output audio representing information corresponding to the user's gesture input, based on the fact that the other party is an infant or toddler, as a cartoon. You can decide to apply the character's tone.
- the processor 570 may output audio representing information corresponding to the user's gesture input, based on the fact that the other party is an infant or toddler, as a cartoon. You can decide to apply the character's tone.
- the processor 570 when the second setting is set and the type of input is the user's gesture input, the processor 570 provides information corresponding to the user's gesture input based on the distance between the electronic device 401 and the other party.
- the level of the audio representing can be determined. For example, when the second setting is set and the type of input is the user's gesture input, the processor 570 provides information corresponding to the user's gesture input as the distance between the electronic device 401 and the other party increases. This can be done so that the audio it represents has a high level.
- the processor 570 may determine to output audio representing information corresponding to the other person's gesture through the second speaker 442, based on the settings. For example, in order to listen to audio representing information corresponding to the other person's gesture, the user sets the audio representing information corresponding to the other person's gesture to be output through the second speaker 442 (hereinafter referred to as “third speaker”). (referred to as “settings”) can be set.
- the processor 570 selects the other party's tone (or the user's voice) for audio representing information corresponding to the other party's gesture. You can decide to apply the tone specified by . If information about the other person's tone is not stored in the memory 560, the processor 570 may apply the user's tone (or a tone designated by the user) to the audio representing information corresponding to the other person's gesture. can decide
- the processor 570 configures the first setting, the second setting, based on user input, type of input, and/or the presence of the other party (e.g., whether the other party is located adjacent to the electronic device 401). 2 settings, and/or a 3rd setting can be set.
- the processor 570 may set the second setting and the third setting when the other party is within a specified distance (eg, about 2 m) from the electronic device 401.
- the processor 570 may set the first setting when the other party does not exist within a specified distance from the electronic device 401 (e.g., when the other party does not exist around the electronic device 401). there is.
- the processor 570 may set the second setting when the type of input is a user's gesture input and the other party is within a specified distance from the electronic device 401. As another example, the processor 570 may set the third setting when the type of input is the other party's gesture input and the other party is within a specified distance from the electronic device 401. As another example, the processor 570 may set the first setting when the type of input is a user's gesture input and the other party does not exist within a specified distance from the electronic device 401.
- the processor 570 when the processor 570 determines to output information corresponding to the gesture through the speaker 540, the processor 570 may output the information corresponding to the gesture through the speaker 540.
- the processor 570 when the first setting is set and the processor 570 determines to output the user's gesture input to the second speaker 442, the processor 570 outputs audio representing information corresponding to the user's gesture to the second speaker. It can be printed through (442).
- the processor 570 determines to output the user's gesture input to the first speaker 441
- the processor 570 outputs audio representing information corresponding to the user's gesture through the first speaker 441.
- the processor 570 When the third setting is set and the processor 570 determines to output the other person's gesture input through the second speaker 442, the processor 570 outputs audio representing information corresponding to the other person's gesture through the second speaker 442. Can be printed.
- the processor 570 may output audio corresponding to the gesture input and having the tone determined through operation 805 through a speaker. In one embodiment, audio corresponding to the gesture input and having the audio level determined through operation 805 may be output through a speaker.
- FIG. 9 is a flowchart 900 illustrating a method of providing information corresponding to a gesture, according to various embodiments.
- FIG. 9 is a diagram for explaining an operation performed when a user's voice is input while information corresponding to the user's gesture is output through a speaker (e.g., the first speaker 441). You can.
- the processor 570 outputs information corresponding to the gesture input (e.g., audio representing information corresponding to the gesture input) through the speaker 540.
- the user's voice input can be obtained.
- the processor 570 may acquire the user's voice input through the first microphone 411 while outputting information corresponding to the user's gesture input through the speaker 540.
- the processor 570 outputs information corresponding to the user's gesture input through the speaker 540, the image acquired through the second camera 422 (e.g., the user's face) Based on the image of muscle movement, it can be confirmed that the user is uttering a voice.
- processor 570 determines if the user's voice input is obtained (or based on an image of the user's facial muscle movements) while outputting information corresponding to the gesture input through the speaker. (if it is confirmed that the user is uttering a voice), the operation of outputting information corresponding to the gesture input through the speaker 540 may be stopped. For example, when the processor 570 obtains the user's voice input while outputting information corresponding to the user's gesture input through the first speaker 441, the voice uttered by the user is accurately transmitted to the other party. As much as possible, the operation of outputting information corresponding to the user's gesture input through the first speaker 441 can be stopped.
- the operation of outputting information corresponding to the user's gesture input through the first speaker 441 may be stopped.
- the user's voice input is obtained while information corresponding to the user's gesture input is output through the first speaker 441, and the other party is not located within a specified distance from the electronic device 401, The operation of outputting information corresponding to the user's gesture input through the first speaker 441 may not be stopped.
- FIG. 10 is a flowchart 1000 illustrating a method of providing information corresponding to a gesture and information corresponding to a voice, according to various embodiments.
- the processor 570 outputs information corresponding to the gesture input (e.g., audio representing information corresponding to the gesture input) through the speaker 540.
- the user's voice input can be obtained.
- the processor 570 may acquire the user's voice input through the first microphone 411 while outputting information corresponding to the user's gesture input through the speaker 540.
- the processor 570 may obtain information corresponding to the user's voice input.
- the processor 570 may obtain information corresponding to the user's voice input by converting the user's voice into text.
- processor 570 converts information corresponding to the gesture input into first audio having a first tone and converts information corresponding to the user's voice input into second audio having a second tone. It can be converted to audio.
- the processor 570 may determine to apply different tones to the first audio representing information corresponding to the gesture input and the second audio representing information corresponding to the user's voice input. For example, the processor 570 applies a masculine tone to the first audio representing information corresponding to the gesture input and applies a female tone to the second audio representing information corresponding to the user's voice input. You can decide what to do.
- processor 570 may output first audio and second audio through speaker 540.
- the processor 570 mixes first audio having a first tone and second audio having a second tone, and outputs the mixed first audio and second audio through the first speaker 441. can do.
- the present invention is not limited to this, and the processor 570 may output the first audio and the second audio through the first speaker 441 without mixing the first audio and the second audio.
- the processor 570 when the user's voice input is obtained while outputting information corresponding to the gesture input through the speaker 540, the processor 570 performs the gesture based on the user input, as described with reference to FIG. 9.
- the operation of outputting information corresponding to the input through the speaker 540 is stopped, or information corresponding to the gesture input to which different tones are applied (e.g., first audio) and the user's voice input, as described with reference to FIG. 10.
- Corresponding information e.g., second audio
- FIG. 11 is a flowchart 1100 illustrating a method of providing information corresponding to a gesture while making a call, according to various embodiments.
- the processor 570 may obtain a gesture input while the user is making a call with the other party.
- the processor 570 may obtain the user's gesture input based on the image acquired through the first camera 421 while the user is making a call with the other party using the electronic device 401. there is.
- the processor 570 may check information corresponding to the gesture input. For example, the processor 570 may confirm information corresponding to the gesture input (e.g., the contents of a sign language, information corresponding to a designated gesture) by converting the user's gesture input into text.
- information corresponding to the gesture input e.g., the contents of a sign language, information corresponding to a designated gesture
- the processor 570 transmits information corresponding to the gesture input to an external electronic device (e.g., electronic device 102, electronic device 104) through the communication module 530. Can be transmitted.
- the processor 570 may apply the user's tone (or a tone designated by the user) to audio representing information corresponding to the gesture input.
- the processor 570 may transmit the audio signal to the other party's electronic device through the communication module 530 so that the audio signal to which the user's tone is applied is output from the other party's electronic device to which the user is talking.
- the processor 570 transmits information corresponding to the user's gesture to an external electronic device through the communication module 530, so that the user gestures in a quiet place such as a library. You can make a call with the other party using .
- the processor 570 transmits an audio signal representing information corresponding to the gesture input to an external electronic device through the communication module 530, but the present invention is not limited thereto.
- the processor 570 can transmit text representing information corresponding to a gesture input (e.g., without converting the text into audio using a TTS program) to an external electronic device through the communication module 530. there is.
- the processor 570 may receive an audio signal representing information corresponding to the other party's gesture input obtained from the other party's electronic device from an external electronic device through the communication module 530.
- the processor 570 may output the received audio signal through the second speaker 442.
- the processor 570 may receive text representing information corresponding to the other party's gesture input obtained from the other party's electronic device from an external electronic device through the communication module 530.
- the processor 570 may convert the received text into audio using a TTS program and output the converted audio through the second speaker 442.
- the processor 570 obtains the user's gesture input based on the image acquired through the first camera 421 while the user is making a call with the other party using the electronic device 401.
- the processor 570 processes the received audio signal. can be converted to text, and the text can be output through the display 550.
- FIG. 12 is a flowchart 1200 illustrating a method of providing information corresponding to a user's voice while making a call, according to various embodiments.
- the processor 570 may obtain a gesture input while the user is making a call with the other party.
- the processor 570 may obtain the user's gesture input based on the image acquired through the first camera 421 while the user is making a call with the other party using the electronic device 401. there is.
- the processor 570 transmits information corresponding to the gesture input to an external electronic device (e.g., electronic device 102, electronic device 104) through the communication module 530. Can be transmitted.
- an external electronic device e.g., electronic device 102, electronic device 1004.
- the processor 570 acquires the user's voice input through the microphone 510 while transmitting information corresponding to the gesture input to an external electronic device through the communication module 530. You can. For example, the processor 570 may acquire the user's voice input through the first microphone 411 while transmitting information corresponding to the gesture input to an external electronic device through the communication module 530.
- the processor 570 stops transmitting information corresponding to the gesture input to an external electronic device through the communication module 530 and communicates information corresponding to the user's voice input. It can be transmitted to an external electronic device through the module 530.
- the processor 570 when the user moves to a place where voice calls are possible while making a call with the other party using gestures in a quiet place such as a library, the processor 570 provides information corresponding to the gesture input.
- the operation of transmitting to an external electronic device through the communication module 530 is stopped, and information corresponding to the user's voice input (an audio signal representing information corresponding to the user's voice input) is transmitted to the external electronic device through the communication module 530. Can be transmitted to electronic devices.
- FIG. 13 is a flowchart 1300 illustrating a method of providing information corresponding to a gesture and information corresponding to a voice while making a call, according to various embodiments.
- Figure 13 shows a case where the user displays information corresponding to the user's gesture input to the other party through the display 550 and transmits information corresponding to the user's voice input to the other party on the call. It may represent an operation performed in the device 401.
- the processor 570 may obtain a user's gesture input and a user's voice input while making a call. For example, while the user is making a call with another party, the processor 570 obtains the user's gesture input based on the image acquired through the first camera 421 and uses the first microphone 411. Through this, the user's voice input can be obtained.
- the processor 570 may check information corresponding to the user's gesture input. For example, the processor 570 may confirm information corresponding to the gesture input (e.g., the contents of a sign language, information corresponding to a designated gesture) by converting the user's gesture input into text.
- the processor 570 may confirm information corresponding to the gesture input (e.g., the contents of a sign language, information corresponding to a designated gesture) by converting the user's gesture input into text.
- the processor 570 may check information corresponding to the user's voice input. For example, the processor 570 may obtain information corresponding to the user's voice input by converting the user's voice input into text.
- the processor 570 may output information corresponding to the gesture input through the display 550.
- the processor 570 displays the external screen through the display 550 so that the other party adjacent to the electronic device 401 can view the external screen containing text representing information corresponding to the gesture input. You can.
- the processor 570 may transmit information corresponding to the user's voice input to an external electronic device through the communication module 530.
- the processor 570 may transmit an audio signal representing information corresponding to the user's voice input to the electronic device of the other party on the call through the communication module 530.
- FIG. 14 is a flowchart 1400 illustrating a method of providing information corresponding to a gesture and information corresponding to a voice while making a call, according to various embodiments.
- Figure 14 shows a case where the user wants to deliver information corresponding to the user's gesture input to the other party on the call and to deliver information corresponding to the user's voice input to the other party adjacent to the electronic device 401. It may represent an operation performed in the device 401.
- the processor 570 may obtain a user's gesture input and a user's voice input while making a call. For example, while the user is talking on the phone with the other party, the processor 570 obtains the user's gesture input based on the image acquired through the first camera 421 and transmits the input through the first microphone 411. The user's voice input can be obtained.
- the processor 570 may check information corresponding to the user's gesture input. For example, the processor 570 may confirm information corresponding to the gesture input (e.g., the contents of a sign language, information corresponding to a designated gesture) by converting the user's gesture input into text.
- the processor 570 may confirm information corresponding to the gesture input (e.g., the contents of a sign language, information corresponding to a designated gesture) by converting the user's gesture input into text.
- the processor 570 may check information corresponding to the user's voice input. For example, the processor 570 may obtain information corresponding to the user's voice input by converting the user's voice input into text.
- the processor 570 may transmit information corresponding to the user's gesture input to an external electronic device through the communication module 530.
- the processor 570 may apply the user's tone (or a tone designated by the user) to audio representing information corresponding to the user's gesture input.
- the processor 570 may transmit the audio signal to which the user's tone is applied to the electronic device of the other party on the call through the communication module 530.
- the processor 570 transmits information corresponding to the user's gesture input to an external electronic device through the communication module 530
- the information corresponding to the user's voice input is transmitted to the electronic device of the other party on the call. It can be controlled so that it is not transmitted to the device.
- the processor 570 may output information corresponding to the user's voice input through the speaker 540.
- the processor 570 may output information corresponding to the user's voice input through the first speaker 441.
- the processor 570 does not output information corresponding to the user's voice input through the first speaker 441 or outputs information corresponding to the user's voice input through the first speaker 441 so that the voice uttered by the user is directly transmitted to the other party adjacent to the electronic device 401. 441) can be disabled.
- the processor 570 Based on the user input, the processor 570 outputs information corresponding to the user's gesture through the first speaker 441 and outputs information corresponding to the user's voice input through the communication module 530. or transmit information corresponding to the user's gesture to an external electronic device through the communication module 530 and output information corresponding to the user's voice input through the first speaker 441. .
- FIG. 15 is a flowchart 1500 illustrating a method of providing information corresponding to a gesture and information corresponding to a voice, according to various embodiments.
- the processor 570 may obtain a user gesture input and a user's voice input.
- the processor 570 may obtain the user's facial expression and/or the user's health information in addition to the user's gesture input and the user's voice input.
- the processor 570 may check information corresponding to the user's gesture input.
- the processor 570 may check information corresponding to the user's voice input.
- the processor 570 may check content representing the user's facial expression (or emotion corresponding to the input user's facial expression) and health information.
- processor 570 displays information corresponding to the user's gesture input and information corresponding to the user's voice input (and/or content representing the user's facial expression and health information) ( 550).
- the processor 570 is configured to distinguish between information corresponding to the user's gesture input and information corresponding to the user's voice input (and/or content representing the user's facial expression and health information). Information corresponding to gesture input and information corresponding to the user's voice input (and/or content representing the user's facial expression and health information) Sizes of each text, colors of the text, area on the transparent member where the text will be output.
- the display 550 can be controlled to output different languages, and/or texts.
- the processor 570 uses an avatar corresponding to the user to provide information corresponding to the user's gesture input and information corresponding to the user's voice input (and/or the user's Contents representing facial expressions and health information) can be printed.
- processor 570 may cause an avatar corresponding to a user to perform a movement corresponding to the user's gesture input and display an expression corresponding to the user's facial expression (or a graphic indicating that the avatar is thinking).
- the display 550 can be controlled (to display an object or text).
- the processor 570 can display an external screen including the avatar through the display 550 so that the image (and text) using the avatar appears normally to the other party.
- the processor 570 displays an external screen including an image (and text) using an avatar through a first area of the display 550, and displays an internal screen including an image (and text) using an avatar.
- the screen can be displayed through the second area of the display 550.
- the processor 570 may apply the tone of an avatar corresponding to the user to audio representing information corresponding to the user's voice input, and output the audio to which the tone of the avatar is applied through the first speaker 441.
- FIG. 16 is a flowchart 1600 illustrating a method of providing information based on the surrounding environment, according to various embodiments.
- the processor 570 may obtain a gesture input.
- the processor 570 may acquire the user's gesture input and/or the other party's gesture input based on the image acquired through the first camera 421.
- the processor 570 may obtain information about the surrounding environment of the electronic device 401. For example, the processor 570 may obtain ambient sounds, brightness outside the electronic device 401, and/or the distance between the electronic device 401 and the other party.
- the processor 570 may determine whether to output information corresponding to the gesture input through the speaker 540, based on information about the surrounding environment. For example, the processor 570 outputs information corresponding to the gesture input through one or more speakers (e.g., the first speaker 441 and the second speaker 442) based on information about the surrounding environment. It is possible to decide whether to output the information and/or whether to output it through the display 550.
- the processor 570 may determine whether to output information corresponding to the gesture input through the speaker 540, based on information about the surrounding environment. For example, the processor 570 outputs information corresponding to the gesture input through one or more speakers (e.g., the first speaker 441 and the second speaker 442) based on information about the surrounding environment. It is possible to decide whether to output the information and/or whether to output it through the display 550.
- the processor 570 may determine whether to output information corresponding to the gesture input through the speaker 540, based on surrounding sounds. For example, the processor 570 may determine to output text indicating information corresponding to the other person's gesture input through the display 550 when the level of the surrounding sound is higher than a specified level. The processor 570 may determine to output audio representing information corresponding to the other person's gesture input through the second speaker 442 when the level of the surrounding sound is lower than the specified level.
- the processor 570 may determine whether to output information corresponding to the gesture input through the speaker 540 based on the brightness outside the electronic device 401. For example, when the brightness outside the electronic device 401 is higher than the designated brightness, the processor 570 may determine to output audio representing information corresponding to the other person's gesture input through the second speaker 442. . If the external brightness of the electronic device 401 is less than the specified brightness, the processor 570 may determine to output an internal screen containing text indicating information corresponding to the other person's gesture input through the display 550.
- the processor 570 may determine whether to output information corresponding to the gesture input through a speaker based on the distance between the electronic device 401 and the other party. For example, if the distance between the electronic device 401 and the other party is greater than or equal to a specified distance, the processor 570 may determine to output audio representing information corresponding to the other party's gesture input through the second speaker 442. there is. If the distance between the electronic device 401 and the other party is less than a specified distance, the processor 570 may determine to output an internal screen containing text indicating information corresponding to the other party's gesture input through the display 550. .
- the processor 570 may determine to output audio representing information corresponding to the other party's gesture input through the second speaker 442. .
- the processor 570 may determine to output an internal screen containing text indicating information corresponding to the other party's gesture input through the display 550.
- FIG. 17 is a flowchart 1700 illustrating a method of providing information corresponding to a plurality of inputs, according to various embodiments.
- processor 570 may obtain user gesture input, user's facial expression, and/or user's health information (and user input via a virtual keyboard). there is.
- the processor 570 may check information corresponding to the user's gesture input, information corresponding to the user's facial expression, and/or information corresponding to the user's health information.
- processor 570 transmits information corresponding to the user's gesture input, information corresponding to the user's facial expression, and/or information corresponding to the user's health information through speaker 540. Can be printed.
- the processor 570 may apply different tones to information corresponding to the user's gesture input, information corresponding to the user's facial expression, and/or information corresponding to the user's health information.
- the processor 570 applies a female tone to the first audio representing information corresponding to the user's gesture input, and applies a male tone to the second audio representing information corresponding to the user's facial expression.
- a machine tone can be applied to information corresponding to the user's health information.
- processor 570 configures different levels of audio (e.g., : Volumes) can be applied.
- the processor 570 may determine the order in which information corresponding to the user's gesture input, information corresponding to the user's facial expression, and/or information corresponding to the user's health information will be sequentially output. there is.
- processor 570 may, based on the determined tones, levels of audio, and/or output order, generate information corresponding to a user gesture input, information corresponding to a user's facial expression, and/or Information corresponding to the user's health information may be output through the first speaker 441.
- processor 570 may, based on the determined tones, levels of audio, and/or output order, select first audio representing information corresponding to the user gesture input, the user's face, The second audio representing information corresponding to the facial expression and/or the third audio representing information corresponding to the user's health information may be mixed and output through the first speaker 441.
- the processor may determine whether to output information corresponding to the input through a speaker based on the user's information and/or the other party's information. For example, if the user is hearing impaired, the processor can display the other party's voice as text through the display 451. For example, when a gesture representing a sign language is input from the other party and the user does not know the sign language, the processor may output the gesture representing the sign language input from the other party as voice and/or text. For example, if the other party is hearing impaired (e.g., a hearing impaired person who knows sign language) and the user does not know, when the user's voice is input, the processor may display the input user's voice as text through the display 451. .
- hearing impaired e.g., a hearing impaired person who knows sign language
- a method of providing information from an electronic device 401 involves inputting information through one or more input modules (e.g., a microphone 510 and a camera 520) of the electronic device 401.
- the method may further include converting the obtained input into text.
- the operation of determining whether to output information corresponding to the input through the one or more speakers is based on at least one of a user input and a type of the input, It may include an operation of determining whether to output information corresponding to the input through the one or more speakers (eg, speaker 540).
- the operation of determining whether to output information corresponding to the input through the one or more speakers may be performed when the type of input is a gesture and/or voice of the user of the electronic device 401.
- An operation of determining to output information corresponding to the user's gesture and/or voice through the first speaker 441 among one or more speakers, and when the type of input is the other person's gesture and/or voice, the one It may include an operation of determining to output information corresponding to the other party's gesture and/or voice through the second speaker 442 among the above speakers.
- the operation of determining whether to output information corresponding to the input through the one or more speakers includes determining a tone to be applied to audio representing the information corresponding to the input. It may include actions such as:
- the operation of obtaining the input includes obtaining a plurality of inputs through the one or more input modules (e.g., microphone 510 and camera 520), and the operation of acquiring a plurality of inputs corresponding to the inputs.
- the operation of determining a tone to be applied to audio representing information includes, based on the types of the plurality of inputs, determining different tones to be applied to audio to be simultaneously output and representing information corresponding to the plurality of inputs. can do.
- the operation of acquiring a plurality of inputs through the one or more input modules includes the one or more input modules (e.g., the microphone 510 and the camera 520).
- the operation of determining different tones to be applied to the audio to be applied includes determining a first tone to be applied to the first audio representing information corresponding to the user's gesture input, and indicating information corresponding to the user's voice input. It may include an operation of determining a second tone to be applied to the second audio to be output simultaneously with the first audio.
- the operation of determining whether to output information corresponding to the input through the one or more speakers may be performed when the type of input is a gesture and/or voice of the user of the electronic device 401.
- the method may include, when a user's gesture of the electronic device 410 is input while the electronic device 410 is making a call with an external electronic device, the communication module of the electronic device 410 (for example, the operation of transmitting information corresponding to the user's gesture to the external electronic device through the communication module 530 may be further included.
- the method includes an operation of acquiring information about the surrounding environment of the electronic device 401 and, based on the information about the surrounding environment of the electronic device 401, information corresponding to the input.
- An operation of determining whether to output through one or more speakers may be further included.
- the electronic device 401 includes AR glasses, and the input includes a gesture of a user of the electronic device, a gesture of another person adjacent to the electronic device 401, the user's voice, It may include at least one of the other party's voice, the user's facial expression, or the user's health information.
- the data structure used in the above-described embodiments of the present disclosure can be recorded on a computer-readable recording medium through various means.
- the computer-readable recording medium may include a storage medium such as a magnetic storage medium (e.g., ROM, floppy disk, or hard disk) or an optical readable medium (e.g., CD-ROM, or DVD). there is.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Optics & Photonics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
Abstract
본 개시의 다양한 실시예들에 따른 전자 장치는, 하나 이상의 입력 모듈들, 하나 이상의 스피커들, 디스플레이, 및 상기 하나 이상의 입력 모듈들, 상기 하나 이상의 스피커들, 및 상기 디스플레이와 작동적으로 연결된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 하나 이상의 입력 모듈들을 통하여 입력을 획득하고, 상기 입력의 종류를 확인하고, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하고, 및 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들을 통하여 출력되도록, 상기 하나 이상의 스피커들을 제어하도록 구성될 수 있다. 그 외에도 다양한 실시예들이 가능할 수 있다.
Description
본 개시는 정보를 제공하는 방법 및 이를 지원하는 전자 장치에 관한 것이다.
통신 기술이 발달함에 따라, 사용자 신체에 착용하더라도 큰 불편함 없이 사용할 수 있을 정도로 전자 장치가 소형화, 경량화되고 있다. 예를 들어, 헤드 마운팅 장치(head mounting device; HMD), 스마트 시계(또는 밴드), 콘택트 렌즈형 장치, 반지형 장치, 장갑형 장치, 신발형 장치 또는 의복형 장치와 같은 웨어러블(wearable) 전자 장치가 상용화되고 있다. 웨어러블 전자 장치는 신체에 직접 착용되므로, 휴대성 및 사용자의 접근성이 향상될 수 있다.
HMD 장치는, 사용자의 머리 또는 안면에 착용된 상태로 사용되는 장치로서, 증강 현실(augmented reality; AR)을 사용자에게 제공할 수 있다. 예를 들어, 증강 현실을 제공하는 HMD 장치는 안경 형태로 구현되어, 사용자 시야 범위의 적어도 일부 공간에서 사물에 대한 정보를 이미지나 문자 형태로 사용자에게 제공할 수 있다. HMD 장치는, 가상 현실(virtual reality; VR)을 사용자에게 제공할 수 있다. 예를 들어, 사용자의 양안에 각각 독립된 영상을 출력하여, 사용자에게 외부 입력으로부터 제공되는 콘텐츠를 영상 또는 음향 형태로 출력함으로써 뛰어난 몰입감을 제공할 수 있다. 또한, HMD 장치는, 혼합 현실(mixed reality; MR) 및/또는 확장 현실(extended reality; XR)을 제공할 수 있다.
HMD 장치는, 입/출력 장치를 통하여, 정보를 수신하거나 정보를 전달할 수 있다. 예를 들어, HMD 장치는 마이크를 통하여 외부의 소리(예: 상대방의 음성)을 획득할 수 있다. HMD 장치는, 상기 획득된 음성을 이미지 또는 오디오 형태로 변환하여 출력함으로써, 상기 획득된 음성이 나타내는 정보를 HMD 장치를 착용한 사용자(예: 청각 장애인)에게 제공할 수 있다. 또한, HMD 장치는, HMD 장치 상에 표시되는 가상 키보드를 이용하여 상대방에게 전달될 정보를 생성하고, 생성된 정보를 오디오로 변환하여 출력 장치(예: 스피커)를 통하여 출력할 수 있다.
전자 장치(예: HMD 장치)가 가상 키보드를 이용하여 생성된 정보를 오디오로 출력하는 경우, 전자 장치를 통하여 출력되는 오디오는 사용자의 음성(육성)과 구별되지 않을 수 있다. 예를 들어, 전자 장치는 가상 키보드를 이용하여 입력을 획득할 수 있다. 전자 장치는 획득된 입력을 텍스트로 변환하고, 변환된 텍스트에 대응하는 오디오를 스피커를 통하여 출력할 수 있다. 전자 장치에서 오디오가 출력되는 동안, 사용자가 발화하는 경우, 전자 장치를 통하여 출력되는 오디오와 사용자의 의해 발화되는 음성은 상대방에 의해 구별되지 않을 수 있다.
전자 장치는, 사용자의 제스처와 함께 사용자의 음성이나 얼굴 표정과 같은 다양한 입력들을 동시에 입력 받을 수 있다. 이러한 경우, 전자 장치는 동시에 입력되는 다양한 입력들 중에서 사용자의 제스처와 관련된 입력만을 처리 및 출력하고, 다른 입력은 처리하기 어려울 수 있다.
전자 장치로 입력되는 다양한 입력들(예: 사용자의 음성, 사용자의 제스처, 및 사용자의 얼굴 표정)에 대응하는 출력들이 하나의 출력 장치를 통하여 출력되는 경우, 다양한 입력들에 대응하는 출력들 각각은 서로 구별되지 않을 수 있다.
본 개시의 다양한 실시예들은, 전자 장치로 입력되는 다양한 입력들에 대응하는 출력들이 서로 구별되어 출력되도록 할 수 있는, 정보를 제공하는 방법 및 이를 지원하는 전자 장치에 관한 것이다.
본 개시가 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 다양한 실시예들에 따른 전자 장치는, 하나 이상의 입력 모듈들, 하나 이상의 스피커들, 디스플레이, 및 상기 하나 이상의 입력 모듈들, 상기 하나 이상의 스피커들, 및 상기 디스플레이와 작동적으로 연결된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 하나 이상의 입력 모듈들을 통하여 입력을 획득하고, 상기 입력의 종류를 확인하고, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하고, 및 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들을 통하여 출력되도록, 상기 하나 이상의 스피커들을 제어하도록 구성될 수 있다.
본 개시의 다양한 실시예들에 따른 전자 장치에서 정보를 제공하는 방법은, 상기 전자 장치의 하나 이상의 입력 모듈들을 통하여 입력을 획득하는 동작, 상기 입력의 종류를 확인하는 동작, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작, 및 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들을 통하여 출력되도록, 상기 하나 이상의 스피커들을 제어하는 동작을 포함할 수 있다.
본 개시의 다양한 실시예에 따른 정보를 제공하는 방법 및 이를 지원하는 전자 장치는, 전자 장치로 입력되는 다양한 입력들에 대응하는 출력들이 서로 구별되어 출력되도록 할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.
도 2는, 다양한 실시예들에 따른, 전자 장치의 구조를 설명하기 위한 예시 도면이다.
도 3은, 다양한 실시예들에 따른, 전자 장치의 아이 트래킹 카메라 구조를 설명하기 위한 예시 도면이다.
도 4는, 다양한 실시예들에 따른, 전자 장치를 설명하기 위한 예시 도면이다.
도 5는, 다양한 실시예들에 따른, 전자 장치의 블록도이다.
도 6은, 다양한 실시예들에 따른, 프로세서의 블록도이다.
도 7은, 다양한 실시예들에 따른, 정보를 제공하는 방법을 설명하는 흐름도이다.
도 8은, 다양한 실시예들에 따른, 제스처에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 9는, 다양한 실시예들에 따른, 제스처에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 10은, 다양한 실시예들에 따른, 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 11은, 다양한 실시예들에 따른, 통화를 수행하는 동안 제스처에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 12는, 다양한 실시예들에 따른, 통화를 수행하는 동안 사용자의 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 13은, 다양한 실시예들에 따른, 통화를 수행하는 동안 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 14는, 다양한 실시예들에 따른, 통화를 수행하는 동안 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 15는, 다양한 실시예들에 따른, 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 16은, 다양한 실시예들에 따른, 주변 환경에 기반하여, 정보를 제공하는 방법을 설명하는 흐름도이다.
도 17은, 다양한 실시예들에 따른, 복수의 입력에 대응하는 정보를 제공하는 방법을 설명하는 흐름도이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다.
도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일 실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.
무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제 2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일 실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.
다양한 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일 실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제 1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제 2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일 실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제 2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
도 2는, 다양한 실시예들에 따른 전자 장치(201)의 구조를 설명하기 위한 예시 도면이다.
도 2를 참조하면, 일 실시예에서, 전자 장치(201)(예: 전자 장치(101))는 하나 이상의 제 1 카메라들(211-1, 211-2), 하나 이상의 제 2 카메라들(212-1, 212-2), 및 하나 이상의 제 3 카메라들(213)을 포함할 수 있다. 일 실시예에서, 하나 이상의 제 1 카메라들(211-1, 211-2)을 통하여 획득된 이미지는 사용자에 의한 손 제스처 검출, 사용자의 머리 추적, 및/또는 공간 인식에 이용될 수 있다. 일 실시예에서, 하나 이상의 제 1 카메라들(211-1, 211-2)은 GS(Global shutter) 카메라일 수 있다.
일 실시예에서, 하나 이상의 제 1 카메라들(211-1, 211-2)은 깊이 촬영을 통한 SLAM(simultaneous localization and mapping) 연산을 수행할 수 있다. 일 실시예에서, 하나 이상의 제 1 카메라들(211-1, 211-2)은 6DoF(degrees of freedom)를 위한 공간 인식을 수행할 수 있다.
일 실시예에서, 하나 이상의 제 2 카메라들(212-1, 212-2)을 통하여 획득된 이미지는 사용자의 눈동자를 검출하고 추적하는 데 이용될 수 있다. 일 실시예에서, 하나 이상의 제 2 카메라들(212-1, 212-2)은 GS 카메라일 수 있다. 일 실시예에서, 하나 이상의 제 2 카메라들(212-1, 212-2)은 각각 좌안 및 우안에 대응될 수 있고, 하나 이상의 제 2 카메라들(212-1, 212-2)의 성능은 동일할 수 있다.
일 실시예에서, 하나 이상의 제 3 카메라(213)는 고해상도의 카메라일 수 있다. 일 실시예에서, 하나 이상의 제 3 카메라(213)는 자동 포커싱(auto-focusing, AF) 기능과 떨림 보정 기능을 수행할 수 있다. 일 실시예에서, 하나 이상의 제 3 카메라(213)는 GS 카메라이거나, RS(rolling shutter) 카메라일 수 있다.
일 실시예에서, 전자 장치(201)는 하나 이상의 발광 소자들(214-1, 214-2)을 포함할 수 있다. 일 실시예에서, 발광 소자들(214-1, 214-2)은 디스플레이의 화면 출력 영역으로 빛을 조사하는, 후술할 광원과는 상이할 수 있다. 일 실시예에서, 발광 소자들(214-1, 214-2)은 하나 이상의 제2 카메라들(212-1, 212-2)를 통하여 사용자의 눈동자를 검출하고 추적하는 경우에 있어서, 눈동자 검출을 용이하게 하기 위한 빛을 조사할 수 있다.
일 실시예에서, 발광 소자들(214-1, 214-2)은 각각 LED(light emitting diode)를 포함할 수 있다. 일 실시예에서, 발광 소자들(214-1, 214-2)은 적외선 영역의 빛을 조사할 수 있다. 일 실시예에서, 발광 소자들(214-1, 214-2)은 전자 장치(201)의 프레임 주변에 부착될 수 있다. 일 실시예에서, 발광 소자들(214-1, 214-2)은 하나 이상의 제1 카메라들(211-1, 211-2) 주변에 위치하고, 전자 장치(201)가 어두운 환경에서 사용될 때 하나 이상의 제1 카메라들(211-1, 211-2)에 의한 제스처 검출, 머리 추적, 및 공간 인식을 보조할 수 있다. 일 실시예에서, 발광 소자들(214-1, 214-2)은 하나 이상의 제3 카메라들(213) 주변에 위치하고, 전자 장치(201)가 어두운 환경에서 사용될 때 하나 이상의 제3 카메라들(213)에 의한 이미지 획득을 보조할 수 있다.
일 실시예에서, 전자 장치(201)는 배터리들(235-1, 235-2)을 포함할 수 있다. 배터리들(235-1, 235-2)은 전자 장치(201)의 나머지 구성요소들을 동작시키기 위한 전력을 저장할 수 있다.
일 실시예에서, 전자 장치(201)는 제1 디스플레이(251), 제2 디스플레이(252), 하나 이상의 입력 광학 부재들(253-1, 253-2), 하나 이상의 투명 부재들(290-1, 290-2), 및 하나 이상의 화면 표시 부분들(254-1, 254-2)을 포함할 수 있다.
일 실시예에서, 제1 디스플레이(251) 및 제2 디스플레이(252)는, 예를 들면, 액정 표시 장치(liquid crystal display; LCD), 디지털 미러 표시 장치(digital mirror device; DMD), 실리콘 액정 표시 장치(liquid crystal on silicon; LCoS), 유기 발광 다이오드(organic light emitting diode; OLED) 또는 마이크로 엘이디(micro light emitting diode; micro LED)를 포함할 수 있다.
일 실시예에서, 제1 디스플레이(251) 및 제2 디스플레이(252)가 액정 표시 장치, 디지털 미러 표시 장치 또는 실리콘 액정 표시 장치 중 하나로 이루어지는 경우, 전자 장치(201)는 디스플레이의 화면 출력 영역으로 빛을 조사하는 광원을 포함할 수 있다. 일 실시예에서, 제1 디스플레이(251) 및 제2 디스플레이(252)가 자체적으로 빛을 발생시킬 수 있는 경우(예컨대, 유기 발광 다이오드 또는 마이크로 엘이디 중 하나로 이루어지는 경우), 전자 장치(201)는 별도의 광원을 포함하지 않더라도 사용자에게 상대적으로 양호한 품질의 가상 영상을 제공할 수 있다.
일 실시예에서, 하나 이상의 투명 부재들(290-1, 290-2)은 사용자가 전자 장치(201)를 착용하였을 때 사용자의 눈에 대면하게 배치될 수 있다. 일 실시예에서, 하나 이상의 투명 부재들(290-1, 290-2)은 글래스 플레이트, 플라스틱 플레이트 또는 폴리머 중 적어도 하나를 포함할 수 있다. 일 실시예에서, 사용자는 전자 장치(201)를 착용하였을 때 하나 이상의 투명 부재들(290-1, 290-2)을 통하여 외부 세계를 볼 수 있다. 일 실시예에서, 하나 이상의 입력 광학 부재들(253-1, 253-2)은 제1 디스플레이(251) 및 제2 디스플레이(252)에서 생성한 빛을 사용자의 눈으로 유도할 수 있다. 일 실시예에서, 하나 이상의 투명 부재들(290-1, 290-2) 위의 하나 이상의 화면 표시 부분들(254-1, 254-2) 위에 제1 디스플레이(251) 및 제2 디스플레이(252)에서 생성한 빛에 기초한 상이 맺히고, 사용자는 하나 이상의 화면 표시 부분들(254-1, 254-2) 위에 맺힌 상을 볼 수 있다.
일 실시예에서, 전자 장치(201)는 하나 이상의 광 도파로들(미도시)을 포함할 수 있다. 광 도파로는 제1 디스플레이(251) 및 제2 디스플레이(252)에서 생성한 빛을 사용자의 눈으로 전달할 수 있다. 전자 장치(201)는 좌안 및 우안에 대응하여 각각 하나씩의 광 도파로를 포함할 수 있다. 일 실시예에서, 광 도파로는 글래스, 플라스틱 또는 폴리머 중 적어도 하나를 포함할 수 있다. 일 실시예에서, 광 도파로는 내부 또는 외부의 일표면에 형성된 나노 패턴, 예를 들어, 다각형 또는 곡면 형상의 격자 구조(grating structure)를 포함할 수 있다. 일 실시예에서, 광 도파로는 free-form형 프리즘을 포함할 수 있고, 이 경우, 광 도파로는 입사된 광을 반사 미러를 통해 사용자에게 제공할 수 있다. 일 실시예에서, 광 도파로는 적어도 하나의 회절 요소(예: DOE(diffractive optical element), HOE(holographic optical element)) 또는 반사 요소(예: 반사 거울) 중 적어도 하나를 포함하고, 광 도파로에 포함된 적어도 하나의 회절 요소 또는 반사 요소를 이용하여 광원으로부터 방출된 디스플레이 광을 사용자의 눈으로 유도할 수 있다. 일 실시예에서, 회절 요소는 입력/출력 광학 부재를 포함할 수 있다. 일 실시예에서, 반사 요소는 전반사를 일으키는 부재를 포함할 수 있다.
일 실시예에서, 전자 장치(201)는 하나 이상의 음성 입력 장치들(262-1, 262-2, 262-3) 및 하나 이상의 음성 출력 장치들(263-1, 263-2)을 포함할 수 있다.
일 실시예에서, 전자 장치(201)는 제1 PCB(270-1) 및 제2 PCB(270-2)를 포함할 수 있다. 제1 PCB(270-1) 및 제2 PCB(270-2)는 하나 이상의 제1 카메라들(211-1, 211-2), 하나 이상의 제2 카메라들(212-1, 212-2), 하나 이상의 제3 카메라(213), 디스플레이들, 오디오 모듈, 및 센서와 같은, 전자 장치(201)에 포함되는 구성 요소에 전기 신호를 전달하도록 설정될 수 있다. 일 실시예에서, 제1 PCB(270-1) 및 제2 PCB(270-2)는 FPCB(flexible printed circuit board)를 포함할 수 있다. 일 실시예에서, 제1 PCB(270-1) 및 제2 PCB(270-2)는 각각 제1 기판, 제2 기판, 및 제1 기판과 상기 제2 기판 사이에 배치된 인터포저를 포함할 수 있다.
도 3은, 다양한 실시예들에 따른, 전자 장치(201)의 아이 트래킹 카메라 구조를 설명하기 위한 예시 도면이다.
도 3을 참조하면, 전자 장치(201)는 ET(eye tracking) 카메라(311)(예: 하나 이상의 제2 카메라들(212-1, 212-2)), 디스플레이(301), 입력 광학 부재(305), 제1 도파관(waveguide)(307), 출력 광학 부재(309), 제1 스플리터(313), 제2 도파관(315), 또는 제2 스플리터(317) 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 사용자의 눈동자(pupil)(319)는 제1 스플리터(313)(예: 시선 추적용 스플리터), 제2 도파관(315), 제2 스플리터(317)를 통해 ET 카메라(311)에 촬상될 수 있다. 일 실시예에서, ET 카메라(311)는 촬상된 이미지에서 눈동자(319)를 검출하고, 검출된 눈동자(319)의 움직임을 확인함으로써 사용자의 시선을 추적할 수 있다.
일 실시예에서, 디스플레이(301)를 통해 출력되는 이미지는 입력 광학 부재(305), 및 제1 도파관(307)을 통해 반사되어, 출력 광학 부재(309)를 통해 디스플레이될 수 있다. 일 실시예에서, 전자 장치(201)는 디스플레이(301)를 통해 이미지를 출력함과 동시에, 사용자의 눈동자(319)의 움직임을 확인하여 사용자의 시선(예: 사용자의 시선의 방향)을 추적(예: 식별)할 수 있다.
도 4는, 다양한 실시예들에 따른, 전자 장치(401)를 설명하기 위한 예시 도면이다.
도 4를 참조하면, 일 실시예에서, 전자 장치(401)(예: 전자 장치(101), 전자 장치(201))는, 제 1 마이크(411), 제 2 마이크(412), 제 1 카메라(421), 제 2 카메라(422), 통신 모듈(431), 제 1 스피커(441), 제 2 스피커(442), 및/또는 디스플레이(451)를 포함할 수 있다.
일 실시예에서, 제 1 마이크(411)는, 전자 장치(401)를 착용한 사용자(이하, "사용자"로 지칭함)로부터, 사용자의 음성을 획득하도록 구성될 수 있다. 제 1 마이크(411)는, 사용자의 음성을 획득하기 위하여, 사용자의 입과 인접한 전자 장치(401)의 위치에 배치될 수 있다.
일 실시예에서, 제 2 마이크(412)는, 전자 장치(401)의 주변으로부터 유입되는 오디오(예: 상대방의 음성, 전자 장치(401) 주변의 소리)를 획득할 수 있다. 일 실시예에서, 제 2 마이크(412)는 복수의 마이크들을 포함할 수 있다. 제 2 마이크(412)가 복수의 마이크들을 포함하는 경우, 전자 장치(401)는 복수의 마이크들을 통하여 유입되는 오디오에 기반하여, 상대방의 위치를 결정할 수 있다. 일 실시예에서, 제 2 마이크(412)가 복수의 마이크들을 포함하는 경우, 전자 장치(401)는, 복수의 마이크들을 통하여, 빔 포밍(beam forming)을 이용하여, 특정 방향(예: 상대방의 위치로부터 전자 장치(401)의 위치로 향하는 방향)에서 유입되는 오디오(예: 상대방의 음성에 대응하는 음성 신호)를 강화시킬 수 있다. 일 실시예에서, 제 2 마이크(412)는 도 2의 전자 장치(201)에 포함된 하나 이상의 음성 입력 장치들(262-1, 262-2, 262-3)의 기능과 동일 또는 유사한 기능을 수행할 수 있다.
일 실시예에서, 제 1 카메라(421)는, 사용자의 제스처 또는 상대방의 제스처를 센싱할 수 있다. 예를 들어, 제 1 카메라(421)는 사용자의 제스처(예: 손 제스처)를 포함하는 복수의 프레임들을 연속적으로 획득할 수 있다. 제 1 카메라(421)는 획득된 복수의 프레임들을 프로세서(예: 도 5의 프로세서(570))로 전달할 수 있다.
일 실시예에서, 제 1 카메라(421)는 전자 장치(401)의 주변 환경을 센싱할 수 있다. 예를 들어, 제 1 카메라(421)는 전자 장치(401)의 주변 환경에 대한 이미지를 프로세서(570)로 전달할 수 있다. 전자 장치(401)의 주변 환경에 상대방이 위치하는 경우, 프로세서(570)는, 전자 장치(401)의 주변 환경에 대한 이미지에 기반하여, 상대방의 위치를 검출할 수 있다. 검출된 상대방의 위치는 복수의 마이크들의 빔 포밍을 위하여 이용될 수 있다. 일 실시예에서, 제 1 카메라(421)는, 도 2의 전자 장치(201)에 포함된 하나 이상의 제 1 카메라(421)들(예: 도 2의 제1 카메라들(211-1, 211-2))의 기능과 동일 또는 유사한 기능을 수행할 수 있다.
일 실시예에서, 제 2 카메라(422)는 사용자의 얼굴에 대한 이미지를 획득하도록 구성될 수 있다. 제 2 카메라(422)는 사용자의 얼굴에 대한 이미지를 프로세서(570)로 전달할 수 있다. 일 실시예에서, 프로세서(570)는, 사용자의 얼굴에 대한 이미지에 기반하여, 사용자의 얼굴을 인식할 수 있다. 일 실시예에서, 프로세서(570)는, 사용자의 얼굴에 대한 이미지에 기반하여, 사용자의 얼굴 표정 및/또는 안면 근육 움직임을 검출할 수 있다.
일 실시예에서, 통신 모듈(431)(예: 통신 모듈(190))은, 전자 장치(401)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104) 및/또는 서버(예: 클라우드(cloud) 서버, 서버(108))를 통신 연결할 수 있다.
일 실시예에서, 통신 모듈(431)은, 전자 장치(401)가 통화 기능을 수행하도록 할 수 있다. 일 실시예에서, 통신 모듈(431)은, 사용자가 상대방과 통화를 수행하는 동안, 사용자의 제스처 및/또는 사용자의 음성과 관련된 오디오 신호를, 상대방의 전자 장치로 전송할 수 있다. 통신 모듈(431)은, 사용자가 상대방과 통화를 수행하는 동안, 상대방의 제스처 및/또는 상대방 음성과 관련된 오디오 신호를, 상대방의 전자 장치로부터 수신할 수 있다.
일 실시예에서, 통신 모듈(431)은, 사용자의 제스처(예: 사용자의 손가락의 움직임) 및/또는 사용자의 건강과 관련된 정보를 획득하기 위한 외부 입력 장치를 전자 장치(401)와 통신 연결(예: 무선 통신 연결)할 수 있다. 외부 입력 장치는, 비전(vision) 방식을 이용한 입력 장치, 장갑 형태의 입력 장치, 및/또는 암 밴드(arm band) 및 손목 밴드를 포함할 수 있다.
일 실시예에서, 비전 방식을 이용한 입력 장치는 LED를 포함하고, 전자 장치(401)는, LED로부터 방출되는 광을 센싱함으로써, 사용자의 손의 움직임을 획득할 수 있다.
일 실시예에서, 장갑 형태의 입력 장치는, 장갑 형태의 입력 장치를 착용한 사용자의 손의 움직임을 센싱하기 위하여, 관성(inertial measurement unit; IMU) 센서 및/또는 인장력 변화에 따라 저항이 변화되는 금속 부재를 포함할 수 있다. 장갑 형태의 입력 장치는, 센싱된 사용자의 손의 움직임을 전자 장치(401)로 전송할 수 있다.
일 실시예에서, 암 밴드(arm band) 및 손목 밴드는, 각각, 사용자의 팔 및 손목에 착용될 수 있다. 암 밴드 및/또는 손목 밴드는, 신경세포(neuron)의 전기적 신호를 측정하여 손가락의 움직임을 센싱할 수 있다. 예를 들어, 암 밴드 및/또는 손목 밴드는, 암 밴드 및/또는 손목 밴드에 포함된 복수의 전극들을 통하여 신경세포의 전기적 신호를 측정함으로써, 손가락의 움직임을 센싱할 수 있다. 암 밴드 및/또는 손목 밴드는, 센싱된 손가락의 움직임을 전자 장치(401)로 전송할 수 있다.
일 실시예에서, 암 밴드 및/또는 손목 밴드는, 생체 센서를 통하여, 사용자의 건강 정보(예: 심박수, 체지방율)를 획득할 수 있다. 암 밴드 및/또는 손목 밴드는 획득된 건강 정보를 전자 장치(401)로 전송할 수 있다.
다만, 사용자의 제스처 및/또는 사용자의 건강과 관련된 정보를 획득하기 위한 외부 입력 장치는, 전술한 비전 방식을 이용한 입력 장치, 장갑 형태의 입력 장치, 및/또는 암 밴드 및 손목 밴드에 제한되지 않는다. 일 실시예에서, 외부 입력 장치는, 전자 장치(401)로 입력을 제공할 수 있는 입력 장치를 모두 포함할 수 있다. 예를 들어, 외부 전자 장치는, 전자 장치(401)와 유선 또는 무선으로 통신 연결되어, 사용자에 의해 입력되는 입력을 전자 장치(401)로 제공할 수 있는 키보드 및/또는 마우스를 포함할 수 있다.
일 실시예에서, 제 1 스피커(441)는 사용자의 제스처에 대응하는 오디오 및/또는 사용자의 음성(사용자에 의해 발화된 음성)에 대응하는 오디오를 출력할 수 있다. 예를 들어, 제 1 스피커(441)는, 전자 장치(401)로 사용자의 제스처가 입력되는 경우(예: 제 1 카메라(421)를 통하여 사용자의 제스처에 대한 이미지가 획득되는 경우), 사용자의 제스처가 나타내는 정보(내용)을 오디오 형태로 출력할 수 있다. 다른 예를 들어, 제 1 스피커(441)는, 전자 장치(401)로 사용자의 음성이 입력되는 경우(예: 제 1 마이크(411)를 통하여 사용자에 의해 발화된 음성이 획득되는 경우), 사용자의 음성이 나타내는 정보를 오디오 형태로 출력할 수 있다. 일 실시예에서, 제 1 스피커(441)가 사용자의 제스처에 대응하는 오디오 및/또는 사용자의 음성에 대응하는 오디오를 출력함으로써, 출력되는 오디오를 통하여 표현되는 사용자의 의사가 사용자 주변에 위치하는 상대방에게 전달될 수 있다. 일 실시예에서, 제 1 스피커(441)는 사용자의 입과 인접한 전자 장치(401)의 위치에 배치될 수 있다. 일 실시예에서, 제 1 스피커(441)는 모노(mono) 스피커일 수 있다.
일 실시예에서, 제 2 스피커(442)는, 상대방의 제스처에 대응하는 오디오 및/또는 상대방의 음성(상대방에 의해 발화된 음성)(및 주변 소리)에 대응하는 오디오를 출력할 수 있다. 예를 들어, 제 2 스피커(442)는, 전자 장치(401)로 상대방의 제스처가 입력되는 경우(예: 제 2 카메라(422)를 통하여 상대방의 제스처에 대한 이미지가 획득되는 경우), 상대방의 제스처가 나타내는 정보(내용)을 오디오 형태로 출력할 수 있다. 다른 예를 들어, 제 2 스피커(442)는, 전자 장치(401)로 상대방의 음성(또는 주변 소리)이 입력되는 경우(예: 제 2 마이크(412)를 통하여 상대방에 의해 발화된 음성이 획득되는 경우), 상대방의 음성이 나타내는 정보를 오디오 형태로 출력할 수 있다. 일 실시예에서, 제 2 스피커(442)가 상대방의 제스처에 대응하는 오디오 및/또는 상대방의 음성에 대응하는 오디오를 출력함으로써, 출력되는 오디오를 통하여 표현되는 상대방의 의사가 사용자에게 전달될 수 있다. 일 실시예에서, 제 2 스피커(442)는 사용자의 귀와 인접한 전자 장치(401)의 위치에 배치될 수 있다. 일 실시예에서, 제 2 스피커(442)는 복수의 스테레오(stereo) 스피커들일 수 있다. 일 실시예에서, 제 2 스피커(442)는, 도 2의 전자 장치(201)에 포함된 하나 이상의 음성 출력 장치들(263-1, 263-2)의 기능과 동일 또는 유사한 기능을 수행할 수 있다.
일 실시예에서, 디스플레이(451)(예: 디스플레이 모듈(160))(및 광학 모듈)는 사용자 및/또는 상대방에게 가상 영상을 제공하도록 구성될 수 있다.
일 실시예에서, 디스플레이(451)는, 투명 부재를 통하여 사용자에게 정상적으로 보이는 내용(예: 텍스트 및/또는 이미지)을 포함하는 화면(이하, "내부 화면"으로 지칭함) 및/또는 투명 부재를 통하여 상대방에게 정상적으로 보이는 음성 내용을 포함하는 화면("이하, "외부 화면"으로 지칭함)을 표시할 수 있다. 예를 들어, 디스플레이(451)는, 사용자에게 보여질 내용이 텍스트 "abcd"인 경우, 사용자에게 텍스트 "abcd"가 보여지도록, 텍스트 "abcd"를 포함하는 내부 화면을 투명 부재 상에 표시할 수 있다. 텍스트 "abcd"를 포함하는 내부 화면이 투명 부재 상에 표시되는 경우, 상대방에게 텍스트 "abcd"가 좌우 대칭된 text가 보여질 수 있다. 디스플레이(451)는, 상대방에게 보여질 내용이 텍스트 "abcd"인 경우, 상대방에게 텍스트 "abcd"가 보여지도록, 텍스트 "abcd"를 포함하는 외부 화면을 투명 부재 상에 표시할 수 있다. 텍스트 "abcd"를 포함하는 외부 화면이 투명 부재 상에 표시되는 경우, 사용자에게 텍스트 "abcd"가 좌우 대칭된 text가 보여질 수 있다. 일 실시예에서, 디스플레이(451)는, 전자 장치(401) 내에서 사용자의 눈과 인접한 위치에 배치될 수 있다. 일 실시예에서, 전자 장치(401)가 디스플레이(451) 외에, 추가적인 디스플레이를 포함하는 경우, 프로세서는, 투명 부재를 통하여 사용자에게 정상적으로 보이는 내용(예: 텍스트 및/또는 이미지)을 포함하는 화면을 디스플레이(451)를 통하여 표시하고, 상기 추가적인 디스플레이를 통하여 상대방에게 정상적으로 보이는 음성 내용을 포함하는 화면을 표시할 수 있다.
도 4에서, 전자 장치(401)가, 제 1 마이크(411), 제 2 마이크(412), 제 1 카메라(421), 제 2 카메라(422), 통신 모듈(431), 제 1 스피커(441), 제 2 스피커(442), 및 디스플레이(451)를 포함하는 것으로 예시하고 있지만, 이에 제한되지 않는다. 예를 들어, 전자 장치(401)는, 도 1의 전자 장치(101) 또는 도 2의 전자 장치(201)에 포함된 구성들 중 적어도 하나의 구성을 더 포함할 수 있다. 다른 예를 들어, 실시예에 따라, 전자 장치(401)는, 제 1 마이크(411), 제 2 마이크(412), 제 1 카메라(421), 제 2 카메라(422), 통신 모듈(431), 제 1 스피커(441), 제 2 스피커(442), 및 디스플레이 중 일부를 포함하지 않을 수 있다.
도 5는, 다양한 실시예들에 따른, 전자 장치(401)의 블록도이다.
도 5를 참조하면, 일 실시예에서, 전자 장치(401)는, 마이크(510), 카메라(520), 통신 모듈(530), 스피커(540), 디스플레이(550), 메모리(560), 및/또는 프로세서(570)를 포함할 수 있다.
일 실시예에서, 마이크(510)는 도 4의 제 1 마이크(411) 및/또는 제 2 마이크(412)를 포함할 수 있다.
일 실시예에서, 카메라(520)는 도 4의 제 1 카메라(421) 및/또는 제 2 카메라(422)를 포함할 수 있다.
입력으로서 오디오 및 제스처를 획득하는 마이크(510) 및 카메라(520)는, "입력 모듈"로 지칭될 수 있다.
일 실시예에서, 통신 모듈(530)은 도 1의 통신 모듈(190)에 포함되거나 도 4의 통신 모듈(431)을 포함할 수 있다.
일 실시예에서, 스피커(540)는, 도 4의 제 1 스피커(441) 및/또는 제 2 스피커(442)를 포함할 수 있다.
일 실시예에서, 디스플레이(550)는 도 4의 디스플레이(451)를 포함할 수 있다.
일 실시예에서, 메모리(560)는 도 1의 메모리(130)에 포함될 수 있다.
일 실시예에서, 메모리(560)는 정보를 제공하는 동작의 적어도 일부를 수행하기 위한 정보를 저장할 수 있다. 메모리(560)가 저장하는, 정보를 제공하는 동작의 적어도 일부를 수행하기 위한 정보에 대해서는, 상세히 후술하도록 한다.
일 실시예에서, 메모리(560)는 TTS(text to speech) 음색 DB(561)(data base)("음색 TTS 모델"로도 지칭됨)를 포함할 수 있다.
일 실시예에서, TTS 음색 DB(561)는, 전자 장치(401)에서 출력될 오디오에 적용될, 오디오의 고유한 특성(이하, "음색"으로 지칭함)을 포함할 수 있다.
일 실시예에서, 전자 장치(401)(예: 프로세서(570))는, 전자 장치(401)에서 출력될 오디오에 적용될, 다양한 음색들을 생성하여 메모리(560)에 저장할 수 있다.
일 실시예에서, 전자 장치(401)는 인물에 대응하는 음색을 생성할 수 있다.
예를 들어, 전자 장치(401)는 사용자에 대응하는 음색을 생성할 수 있다. 전자 장치(401)는, 제 2 카메라(422)를 통하여 획득된 사용자의 얼굴 이미지에 기반하여, 사용자가 발화하고 있음을 검출할 수 있다. 전자 장치(401)는, 사용자가 발화하고 있음이 검출된 경우, 사용자에 의해 발화된 음성을 제 1 마이크(411)를 통하여 획득할 수 있다. 전자 장치(401)는, 획득된 사용자의 음성에 기반하여, 사용자에 대응하는 음색을 획득(예: 추출)할 수 있다. 전자 장치(401)는 획득된 사용자에 대응하는 음색을 메모리(560)에 저장할 수 있다. 일 실시예에서, 전자 장치(401)는, 사용자에 대응하는 음색이 생성된 경우, 사용자 정보(예: 사용자를 나타내는 정보) 및 사용자에 대응하는 음색을 매핑(mapping)하여 메모리(560)에 저장할 수 있다.
다른 예를 들어, 전자 장치(401)는 상대방에 대응하는 음색을 생성할 수 있다. 전자 장치(401)는, 제 1 카메라(421)를 통하여 획득된 상대방(예: 전자 장치(401)를 착용한 사용자와 인접한 위치에 있는 상대방)에 대한 이미지에 기반하여, 상대방을 확인할 수 있다. 전자 장치(401)는, 상대방에 의해 발화된 음성을 제 2 마이크(412)를 통하여 획득할 수 있다. 전자 장치(401)는, 획득된 상대방의 음성에 기반하여, 상대방의 음색을 획득(예: 추출)할 수 있다. 전자 장치(401)는 획득된 상대방의 음색을 메모리(560)에 저장할 수 있다. 일 실시예에서, 전자 장치(401)는, 제 1 카메라(421)를 통하여 획득된 이미지 및/또는 제 2 마이크(412)를 통하여 획득된 음성에 기반하여, 상대방의 위치를 확인할 수 있다. 전자 장치(401)는, 상대방의 위치가 확인된 경우, 제 2 마이크(412)에 포함된 복수의 마이크들을 통하여, 빔 포밍을 이용하여, 상대방으로부터 전자 장치(401)로 유입되는 상대방의 음성(예: 상대방의 음성에 대응하는 음성 신호)을 강화시킬 수 있다. 일 실시예에서, 전자 장치(401)는, 상대방에 대응하는 음색이 생성된 경우, 상대방 정보(예: 상대방을 나타내는 정보) 및 상대방에 대응하는 음색을 매핑하여 메모리(560)에 저장할 수 있다.
일 실시예에서, 전자 장치(401)는 소리를 낼 수 있는 사물에 대응하는 음색을 생성할 수 있다. 예를 들어, 전자 장치(401)는 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여, 소리를 내는 중인 사물(예: 애완 동물, 물건)(및 사물의 위치)을 확인할 수 있다. 전자 장치(401)는, 제 1 마이크(411)를 통하여, 사물이 내는 소리를 획득할 수 있다. 전자 장치(401)는, 획득된 소리에 기반하여, 사물에 대응하는 음색을 획득할 수 있다. 전자 장치(401)는 획득된 사물에 대응하는 음색을 메모리(560)에 저장할 수 있다. 일 실시예에서, 전자 장치(401)는, 사물에 대응하는 음색이 생성된 경우, 사물(예: 사물을 나타내는 정보) 및 사물에 대응하는 음색을 매핑하여 메모리(560)에 저장할 수 있다.
일 실시예에서, 전자 장치(401)가 음색을 생성하는 동작의 적어도 일부는, 외부 전자 장치(예: 서버(108))에서 수행될 수 있다. 일 실시예에서, 전자 장치(401)(또는 서버)는, 지정된 알고리즘 및/또는 인공 지능 모델을 이용하여, 사용자, 상대방, 및/또는 사물에 대응하는 음색을 생성할 수 있다.
일 실시예에서, 전자 장치(401)는, 통신 모듈(530)을 통하여, 외부 전자 장치로부터, 음색을 수신할 수 있다. 전자 장치(401)는 수신된 음색을 메모리(560)에 저장할 수 있다.
일 실시예에서, 프로세서(570)는 도 1의 프로세서(120)에 포함될 수 있다.
일 실시예에서, 프로세서(570)는, 정보를 제공하는 동작을 전반적으로 제어할 수 있다. 일 실시예에서, 프로세서(570)는, 정보를 제공하는 동작을 수행하기 위한 하나 이상의 프로세서들을 포함할 수 있다. 프로세서(570)가 정보를 제공하는 동작을 수행하기 위하여 포함하는 구성들에 대해서는 도 6을 참조하여, 상세히 설명하도록 한다.
일 실시예에서, 도 5에서는 전자 장치(401)가, 마이크(510), 카메라(520), 통신 모듈(530), 스피커(540), 디스플레이(550), 메모리(560), 및/또는 프로세서(570)를 포함하는 것으로 예시하고 있지만, 이에 제한되지 않는다. 예를 들어, 도 1의 전자 장치(401)(101) 또는 도 2의 전자 장치(201)에 포함된 구성들 중 적어도 하나의 구성을 더 포함할 수 있다. 다른 예를 들어, 실시예에 따라, 전자 장치(401)는, 마이크(510), 카메라(520), 통신 모듈(530), 스피커(540), 디스플레이(550), 메모리(560), 및 프로세서(570) 중 일부를 포함하지 않을 수 있다.
도 6은, 다양한 실시예들에 따른, 프로세서(570)의 블록도이다.
도 6을 참조하면, 일 실시예에서, 프로세서(570)는, 입력 획득부(610), 입력 분석부(620), 출력 판단부(630), 및/또는 신호 처리부(640)를 포함할 수 있다.
일 실시예에서, 입력 획득부(610)는, 입력 모듈(예: 카메라(520) 및 마이크(510)), 통신 모듈(530), 및/또는 외부 입력 장치를 이용하여, 다양한 입력들을 획득할 수 있다.
일 실시예에서, 입력 획득부(610)는, 제 1 카메라(421)를 통하여, 사용자의 제스처 및/또는 상대방의 제스처를, 입력으로서, 획득할 수 있다. 예를 들어, 입력 획득부(610)는, 제 1 카메라(421)를 통하여, 사용자의 제스처(예: 사용자의 손의 움직임) 및/또는 상대방의 제스처(예: 상대방의 손의 움직임)에 대한 이미지를 획득할 수 있다. 일 실시예에서, 사용자의 제스처 및/또는 상대방의 제스처는, 수어(또는 "수화 언어"로도 지칭됨)를 나타내는 사용자 및/또는 상대방의 손의 움직임을 포함할 수 있다. 일 실시예에서, 사용자의 제스처 및/또는 상대방의 제스처는, 지정된 내용(또는 의미)에 대응하는 움직임을 포함할 수 있다.
일 실시예에서, 입력 획득부(610)는, 제 2 카메라(422)를 통하여, 사용자의 얼굴 표정을, 입력으로서, 획득할 수 있다. 예를 들어, 입력 획득부(610)는, 제 2 카메라(422)를 통하여, 사용자의 얼굴을 포함하는 이미지를 획득할 수 있다.
일 실시예에서, 입력 획득부(610)는, 제 1 마이크(411)를 통하여 입력되는 사용자의 음성 및/또는 제 2 마이크(412)를 통하여 입력되는 상대방의 음성을, 입력으로서, 획득할 수 있다. 일 실시예에서, 입력 획득부(610)는, 제 2 마이크(412)를 통하여 입력되는 전자 장치(401)의 주변 소리를, 입력으로서, 획득할 수 있다.
일 실시예에서, 입력 획득부(610)는, 사용자가 상대방과 통화하는 동안, 통신 모듈(530)을 통하여 수신되는 상대방의 음성 신호를, 입력으로서, 획득할 수 있다.
일 실시예에서, 입력 획득부(610)는, 비전 방식을 이용한 입력 장치의 LED로부터 방출된 광을 센싱함으로써 획득된 사용자의 제스처(예: 사용자의 손의 움직임)를, 입력으로서, 획득할 수 있다.
일 실시예에서, 입력 획득부(610)는, 장갑 형태의 입력 장치로부터 수신된, 사용자의 제스처(예: 사용자의 손의 움직임)를, 입력으로서, 획득할 수 있다.
일 실시예에서, 입력 획득부(610)는, 암 밴드 및/또는 손목 밴드로부터 수신된, 사용자의 손의 움직임 및/또는 건강 정보를, 입력으로서, 획득할 수 있다.
다만, 입력 획득부(610)가 획득 가능한 입력은 전술한 입력들에 제한되지 않는다.
일 실시예에서, 입력 분석부(620)는 입력의 종류를 확인할 수 있다.
일 실시예에서, 입력 분석부(620)는 입력 획득부(610)를 통하여 획득된 입력의 종류가, 제스처, 음성(및/또는 주변 소리), 사용자의 얼굴 표정, 및 건강 정보 중 적어도 하나에 해당하는지 여부를 확인할 수 있다.
일 실시예에서, 입력 분석부(620)는, 제 1 카메라(421)를 통하여 획득된 이미지를 분석함으로써, 입력된 제스처가 사용자의 제스처 및 상대방의 제스처 중 어느 하나에 해당하는지 여부를 확인할 수 있다.
일 실시예에서, 입력 분석부(620)는, 입력된 음성이, 사용자가 발화한 음성인지 또는 상대방이 발화한 음성인지 여부를 확인할 수 있다. 예를 들어, 입력 분석부(620)는, 음성을 획득한 구성(예: 장치)을 확인함으로써, 입력된 음성이, 사용자가 발화한 음성인지 또는 상대방이 발화한 음성인지 여부를 확인할 수 있다. 입력 분석부(620)는, 음성이 제 1 마이크(411)를 통하여 획득된 경우(예를 들어, 제 1 마이크(411)를 통해 수신된 음성 신호의 세기가 제 2 마이크(412)를 통해 수신된 음성 신호의 세기보다 큰 경우), 입력된 음성이 사용자가 발화한 음성인 것으로 확인할 수 있다. 입력 분석부(620)는, 음성이 제 2 마이크(412)를 통하여 획득된 경우(예를 들어, 제 2 마이크(412)를 통해 수신된 음성 신호의 세기가 제 1 마이크(411)를 통해 수신된 음성 신호의 세기보다 큰 경우), 입력된 음성이 상대방이 발화한 음성인 것으로 확인할 수 있다. 다른 예를 들어, 입력 분석부(620)는, 입력된 음성의 음색에 기반하여, 입력된 음성이, 사용자가 발화한 음성인지 또는 상대방이 발화한 음성인지 여부를 확인할 수 있다. 입력 분석부(620)는, 입력된 음성의 음색이 사용자에 대응하는 경우, 입력된 음성이 사용자가 발화한 음성인 것으로 확인할 수 있다. 입력 분석부(620)는, 입력된 음성의 음색이 상대방에 대응하는 경우, 입력된 음성이 상대방이 발화한 음성인 것으로 확인할 수 있다.
일 실시예에서, 입력 분석부(620)는, 제 2 카메라(422)를 통하여 획득된 이미지를 분석함으로써, 입력이 사용자의 얼굴 표정임을 확인할 수 있다.
일 실시예에서, 입력 분석부(620)는, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 건강 정보를 수신하는 경우, 입력이 건강 정보임을 확인할 수 있다.
일 실시예에서, 입력 분석부(620)는, 입력 획득부(610)를 통하여 획득된 입력을 텍스트로 변환할 수 있다.
일 실시예에서, 입력 분석부(620)는, 입력 획득부(610)를 통하여 획득된 입력이 텍스트로 변환 가능한지 여부를 확인할 수 있다. 입력 분석부(620)는, 획득된 입력이 텍스트로 변환 가능한 경우, 획득된 입력에 대응하는 정보(예: 획득된 입력이 나타내는 정보)를 텍스트로 변환할 수 있다. 예를 들어, 입력 분석부(620)는, 입력된 제스처(예: 사용자의 제스처 및/또는 상대방의 제스처)가 수어에 해당하는지 여부를 확인할 수 있다. 입력 분석부(620)는, 제 1 카메라(421)를 통하여 획득된 제스처에 대한 이미지를 분석함으로써, 입력된 제스처가 수어에 해당하는지 여부를 확인할 수 있다. 입력 분석부(620)는, 입력된 제스처가 수어에 해당하는 경우, 입력된 제스처가 텍스트로 변환 가능한 것으로 확인할 수 있다. 입력 분석부(620)는, 입력된 제스처가 나타내는 수어의 내용을, 텍스트로 변환할 수 있다. 다른 예를 들어, 입력 분석부(620)는, 입력된 제스처(예: 사용자의 제스처 및/또는 상대방의 제스처)가 지정된 제스처(예: 메모리(560) 내에서, 지정된 내용에 매핑되어 저장된 제스처)에 대응하는지 여부를 확인할 수 있다. 입력 분석부(620)는, 제 1 카메라(421)를 통하여 획득된 제스처에 대한 이미지를 분석함으로써, 입력된 제스처가 지정된 제스처에 대응하는지 여부를 확인할 수 있다. 입력 분석부(620)는, 입력된 제스처가 지정된 제스처에 해당하는 경우, 입력된 제스처가 텍스트로 변환 가능한 것으로 확인할 수 있다. 입력 분석부(620)는, 입력된 제스처를, 지정된 제스처에 대응하는 정보를 포함하는 텍스트로 변환할 수 있다. 또 다른 예를 들어, 입력 분석부(620)는, 입력된 사용자의 얼굴 표정이 지정된 얼굴 표정(예: 메모리(560)에 저장된 얼굴 표정)에 대응하는지 여부를 확인할 수 있다. 입력 분석부(620)는, 제 2 카메라(422)를 통하여 획득된 사용자의 얼굴에 대한 이미지를 분석함으로써, 사용자의 얼굴 표정을 확인할 수 있다. 입력 분석부(620)는, 사용자의 얼굴 표정이 지정된 얼굴 표정에 대응하는 경우, 입력된 사용자의 얼굴 표정이 텍스트로 변환 가능한 것으로 확인할 수 있다. 입력 분석부(620)는, 입력된 사용자의 얼굴 표정을, 입력된 사용자의 얼굴 표정을 나타내는 내용(또는 입력된 사용자의 얼굴 표정에 대응하는 감정)을 포함하는 텍스트로 변환할 수 있다. 또 다른 예를 들어, 입력 분석부(620)는, 입력된 사용자의 음성 및/또는 상대방의 음성이 텍스트로 변환 가능한지 여부를 확인할 수 있다. 입력 분석부(620)는, 입력된 사용자의 음성 및/또는 상대방의 음성이 텍스트로 변환 가능한 경우, 입력된 사용자의 음성 및/또는 상대방의 음성을, 텍스트로 변환할 수 있다. 예를 들어, 입력 분석부(620)는, STT(speech to text) 프로그램을 이용하여, 입력된 사용자의 음성 및/또는 상대방의 음성을, 텍스트로 변환할 수 있다. 또 다른 예를 들어, 입력 분석부(620)는, 사용자가 상대방과 통화하는 동안, 통신 모듈(530)을 통하여 수신되는 상대방의 음성 신호가 텍스트로 변환 가능한지 여부를 확인할 수 있다. 입력 분석부(620)는, 상기 상대방의 음성 신호가 텍스트로 변환 가능한 경우, 상기 상대방의 음성 신호를, 텍스트로 변환할 수 있다. 또 다른 예를 들어, 입력 분석부(620)는, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 수신된, 건강 정보가 텍스트로 변환 가능한지 여부를 확인할 수 있다. 입력 분석부(620)는, 상기 건강 정보가 텍스트로 변환 가능한 경우, 상기 건강 정보를, 텍스트로 변환할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력에 대응하는 정보를 하나 이상의 스피커들을 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 입력에 대응하는 정보를 하나 이상의 스피커들(예: 제 1 스피커(441) 및/또는 제 2 스피커(442))을 통하여 출력할지 여부 및/또는 디스플레이(550)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 사용자 입력에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 디스플레이(550)를 통하여 표시되는 가상 키보드를 통한 사용자 입력에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 것으로 결정할 수 있다. 다른 예를 들어, 출력 판단부(630)는, 입력된 사용자의 음성 및/또는 사용자의 제스처가 지정된 사용자의 음성 및/또는 사용자의 제스처에 대응하는 경우, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 것으로 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력에 대응하는 정보를 스피커(540)를 통하여 출력하지 않는 것으로 결정된 경우, 입력에 대응하는 정보를 디스플레이(550)를 통하여 표시할지 여부를 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력에 대응하는 정보를 스피커(540) 및 디스플레이(550)를 모두 이용하여 출력할 것으로 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력의 종류에 기반하여, 입력에 대응하는 정보를 출력할 구성을 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다. 출력 판단부(630)는 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보(예: 사용자의 음성에 대응하는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고, 동시에, 사용자의 음성에 대응하는 정보(예: 사용자의 음성에 대응하는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 출력 판단부(630)는, 입력의 종류가 상대방의 음성인 경우, 상대방의 음성에 대응하는 정보를 제 2 스피커(442)를 통하여 출력하고, 동시에, 상대방의 음성에 대응하는 정보를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 다만, 이에 제한되지 않는다. 예를 들어, 출력 판단부(630)는, 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고, 동시에, 사용자의 음성에 대응하는 정보를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 다른 예를 들어, 출력 판단부(630)는, 입력의 종류가 상대방의 음성인 경우, 상대방의 음성을 제 2 스피커(442)를 통하여 출력하고, 동시에, 상대방의 음성에 대응하는 정보를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력의 종류가 사용자의 음성 또는 상대방의 음성인 경우, 사용자의 음성 또는 상대방의 음성에 대응하는 정보를, 사용자의 음성 또는 상대방의 음성의 언어와 다른 언어로 번역할 수 있다. 출력 판단부(630)는, 다른 언어로 번역된, 사용자의 음성 또는 상대방의 음성에 대응하는 정보를, 디스플레이(550) 통하여 표시할 것을 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력의 종류가 사용자의 제스처인 경우, 사용자의 제스처에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다. 출력 판단부(630)는, 입력의 종류가 사용자의 제스처인 경우, 사용자의 제스처에 대응하는 정보(예: 사용자의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 출력 판단부(630)는, 입력의 종류가 상대방의 제스처인 경우, 상대방의 제스처에 대응하는 정보를 제 2 스피커(442)를 통하여 출력할 수 있다. 출력 판단부(630)는, 입력의 종류가 상대방의 제스처인 경우, 상대방의 제스처에 대응하는 정보(예: 상대방의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력의 종류가 사용자의 제스처인 경우, 사용자의 제스처에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고, 동시에, 사용자의 제스처에 대응하는 정보(예: 사용자의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 출력 판단부(630)는, 입력의 종류가 상대방의 제스처인 경우, 상대방의 제스처에 대응하는 정보를 제 2 스피커(442)를 통하여 출력하고, 동시에, 상대방의 제스처에 대응하는 정보(예: 상대방의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 전자 장치(401)의 주변 환경(예: 주변 소리, 전자 장치(401) 외부의 밝기, 및 전자 장치(401) 및 상대방 간 거리)에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력된 사용자의 얼굴 표정(및/또는 입력이 사용자 얼굴 표정에 대응하는 사용자의 감정) 및/또는 건강 정보를, 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 입력된 사용자의 음성 또는 상대방의 음성에 기반하여, 사용자의 감정 또는 상대방의 감정을 획득할 수 있다. 출력 판단부(630)는, 사용자의 감정 또는 상대방의 감정을 나타내는 정보를, 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를, 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 복수의 입력이 획득된 경우, 사용자 입력 또는 복수의 입력의 종류에 기반하여, 복수의 입력에 대응하는 정보를, 스피커(540) 및/또는 디스플레이(550)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를 나타내는 오디오(예: 복수의 입력 각각에 대응하는 정보를 나타내는 텍스트가 변환된 오디오)를, 스피커(540)를 통하여 출력할 것으로 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 제 1 입력 및 제 2 입력이 획득된 경우, 제 1 입력에 대응하는 정보를 나타내는 제 1 오디오 및 제 2 입력에 대응하는 정보를 나타내는 제 2 오디오를, 동시에, 스피커(540)를 통하여 출력할 것으로 결정할 수 있다. 일 실시예에서, 출력 판단부(630)는, 복수의 입력에 대응하는 정보를 나타내는 오디오를 스피커(540)를 통하여 출력할 것이 결정된 경우, 복수의 입력에 대응하는 정보를 나타내는 오디오가 서로 다른 음색을 가지도록, 할 수 있다. 예를 들어, 출력 판단부(630)는, 사용자의 제스처 및 상대방의 제스처가 동시에 입력된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색을 적용하고, 상대방의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 상대방의 음색을 적용할 것을 결정할 수 있다. 다만, 이에 제한되지 않는다. 일 실시예에서, 출력 판단부(630)는, 복수의 입력에 대응하는 정보를 나타내는 오디오가 서로 다른 레벨(level)(또는 음량)을 가지도록 할 수 있다. 예를 들어, 출력 판단부(630)는, 사용자의 제스처 및 상대방의 제스처가 동시에 입력된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오가 제 1 레벨을 가지도록 하고, 상대방의 제스처에 대응하는 정보를 나타내는 오디오가 제 1 레벨 보다 높은 제 2 레벨을 가지도록 할 수 있다. 일 실시예에서, 출력 판단부(630)는, 복수의 입력에 대응하는 정보를 나타내는 오디오를, 순차적으로 출력할 것을 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 사용자의 제스처 및 상대방의 제스처가 동시에 입력된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 출력한 후, 연속적으로 상대방의 제스처에 대응하는 정보를 나타내는 오디오를 출력할 것을 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 복수의 입력이 획득된 경우, 복수의 입력에 대하여 우선순위를 할당(또는 부여)할 수 있다. 예를 들어, 출력 판단부(630)는, 사용자의 제스처에 대하여 상대방의 제스처 보다 높은 우선 순위를 할당할 수 있다.
일 실시예에서, 출력 판단부(630)는, 복수의 입력에 대한 우선순위에 기반하여, 복수의 입력에 대응하는 정보를 나타내는 오디오의 음색, 오디오의 레벨, 및/또는 오디오의 출력 순서를 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 제 1 입력이 제 2 입력에 비하여 높은 우선 순위가 할당된 경우, 제 1 입력에 대하여 제 1 음색을 가지는 오디오를 출력할 것을 결정하고, 제 2 입력에 대하여 제 2 음색을 가지는 오디오를 출력할 것을 결정할 수 있다. 다른 예를 들어, 출력 판단부(630)는, 제 1 입력이 제 2 입력에 비하여 높은 우선 순위가 할당된 경우, 제 1 입력에 대하여 제 1 레벨을 가지는 오디오를 출력할 것을 결정하고, 제 2 입력에 대하여 제 1 레벨 보다 낮은 제 2 레벨을 가지는 오디오를 출력할 것을 결정할 수 있다. 다른 예를 들어, 출력 판단부(630)는, 제 1 입력이 제 2 입력에 비하여 높은 우선 순위가 할당된 경우, 제 1 입력에 대응하는 정보를 나타내는 오디오를 제 2 입력에 대응하는 정보를 나타내는 오디오 보다 먼저 출력할 것을 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 사용자 입력에 기반하여, 복수의 입력에 할당되는 우선순위를 설정할 수 있다. 다만, 출력 판단부(630)가 복수의 입력에 대한 우선순위를 설정하는 방법은 사용자 입력에 제한되지 않는다.
일 실시예에서, 출력 판단부(630)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를, 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 사용자의 제스처, 사용자의 음성, 및 사용자의 건강 정보 중에서, 적어도 2개의 입력이 획득된 경우, 획득된 적어도 2개의 입력을 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다. 출력 판단부(630)는, 적어도 2개의 입력에 대응하는 정보를 나타내는 텍스트들(및/또는 이미지들)이 서로 구별되도록, 텍스트들의 크기들, 텍스트들의 색상들, 텍스트들이 출력될 투명 부재 상의 영역들, 및/또는 텍스트들의 언어들을 다르게 출력할 것을 결정할 수 있다. 다만, 출력 판단부(630)가 획득된 적어도 2개의 입력에 대응하는 정보를 나타내는 텍스트들이 서로 구별되도록 디스플레이(550)를 통하여 출력하는 방법은 전술한 예시에 제한되지 않는다.
일 실시예에서, 출력 판단부(630)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를, 아바타(avatar)를 이용하여, 디스플레이(550) 및 스피커(540)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 출력 판단부(630)는, 사용자의 제스처, 사용자의 음성, 및 사용자의 얼굴 표정(및 건강 정보)이 입력된 경우, 사용자에 대응하는 아바타가, 사용자의 제스처에 대응하는 움직임을 수행하고, 사용자의 얼굴 표정에 대응하는 표정을 나타내도록, 디스플레이(550)를 제어할 수 있다. 출력 판단부(630)는, 사용자의 음성에 대응하는 정보를 나타내는 오디오에 사용자에 대응하는 아바타에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 출력 판단부(630)는, 사용자가 상대방과 통화를 수행하는 동안, 사용자의 제스처 및/또는 사용자의 음성과 관련된 오디오 신호를, 상대방의 전자 장치로 전송할 것을 결정할 수 있다. 일 실시예에서, 출력 판단부(630)는, 사용자가 상대방과 통화를 수행하는 동안, 상대방의 제스처 및/또는 상대방 음성과 관련된 오디오 신호에 대하여, 스피커를 통하여 결정할지 여부를 결정할 수 있다.
일 실시예에서, 신호 처리부(640)는, 출력 판단부(630)의 결정에 기반하여, 입력에 대응하는 정보를 처리할 수 있다. 예를 들어, 신호 처리부(640)는, 출력 판단부(630)가 입력에 대응하는 정보를 나타내는 오디오를 스피커를 통하여 출력할 것으로 결정한 경우, TTS(text to speech) 프로그램을 이용하여, 입력에 대응하는 정보를 나타내는 텍스트를 오디오로 변환할 수 있다. 입력에 대응하는 정보를 나타내는 텍스트가 오디오로 변환된 경우, 스피커를 통하여 출력될 수 있다. 다른 예를 들어, 신호 처리부(640)는, 출력 판단부(630)가 입력에 대응하는 정보를 나타내는 오디오에 대하여 제 1 음색을 적용할 것을 결정하는 경우, TTS 음색 DB(561)로부터 제 1 음색을 획득할 수 있다. 신호 처리부(640)는, 입력에 대응하는 정보를 나타내는 오디오에 대하여 제 1 음색을 적용할 수 있다. 또 다른 예를 들어, 신호 처리부(640)는, 출력 판단부(630)가 복수의 입력에 대응하는 정보를 스피커를 통하여 동시에 출력할 것을 결정한 경우, 복수의 입력에 대응하는 정보를 나타내는 오디오를 믹싱(mixing)함으로써, 복수의 입력에 대응하는 정보를 나타내는 오디오가 동시에 출력되도록 할 수 있다. 다만, 이에 제한되지 않으며, 신호 처리부(640)는, 출력 판단부(630)의 결정에 따른 신호 처리 동작을 수행할 수 있다.
본 개시의 다양한 실시예들에 따른 전자 장치(401)는, 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520)), 하나 이상의 스피커들(예: 스피커(540)), 디스플레이(예: 디스플레이(550)), 및 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520)), 상기 하나 이상의 스피커들(예: 스피커(540)), 및 상기 디스플레이(예: 디스플레이(550))와 작동적으로 연결된 적어도 하나의 프로세서(예: 프로세서(570))를 포함하고, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 입력을 획득하고, 상기 입력의 종류를 확인하고, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하고, 및 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력되도록, 상기 하나 이상의 스피커들을 제어하도록 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는 상기 획득된 입력을 텍스트로 변환하도록 더 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 사용자 입력 또는 상기 입력의 종류 중 적어도 하나에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하도록 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 입력에 대응하는 정보를 나타내는 오디오에 적용될 음색을 결정하도록 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 복수의 입력을 획득하고, 및 상기 복수의 입력의 종류에 기반하여, 상기 복수의 입력에 대응하는 정보를 나타내고 동시에 출력될 오디오들에 대하여 적용될 서로 다른 음색들을 결정하도록 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 입력의 종류가 상기 전자 장치(401)의 사용자의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 1 스피커(441)를 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하고, 및 상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 2 스피커(442)를 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정할 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 상기 전자 장치(401)의 사용자의 제스처 입력 및 상기 사용자의 음성 입력을 획득하고, 및 상기 사용자의 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오에 대하여 적용될 제 1 음색을 결정하고, 상기 사용자의 음성 입력에 대응하는 정보를 나타내고 상기 제 1 오디오와 동시에 출력될 제 2 오디오에 대하여 적용될 제 2 음색을 결정하도록 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 입력의 종류가 상기 전자 장치(401)의 사용자의 제스처 및/또는 음성인 경우, 상기 디스플레이(예: 디스플레이(550))의 외부 화면을 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 표시할 것을 결정하고, 및 상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 디스플레이(예: 디스플레이(550))의 내부 화면을 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하도록 구성될 수 있다.
다양한 실시예에서, 상기 전자 장치(401)는 통신 모듈(예: 통신 모듈(530))을 더 포함하고, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 전자 장치(401)가 외부 전자 장치(401)와 통화를 수행하는 동안 상기 전자 장치(401)의 사용자의 제스처가 입력되는 경우, 상기 통신 모듈(예: 통신 모듈(530))을 통하여, 상기 사용자의 제스처에 대응하는 정보를 상기 외부 전자 장치(401)로 전송하도록 더 구성될 수 있다.
다양한 실시예에서, 상기 적어도 하나의 프로세서(예: 프로세서(570))는, 상기 전자 장치(401)의 주변 환경에 대한 정보를 획득하고, 및 상기 전자 장치(401)의 주변 환경에 대한 정보에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하도록 더 구성될 수 있다.
도 7은, 다양한 실시예들에 따른, 정보를 제공하는 방법을 설명하는 흐름도(700)이다.
도 7을 참조하면, 동작 701에서, 일 실시예에서, 프로세서(570)는 하나 이상의 입력 모듈들을 통하여 입력을 획득할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 카메라(421)를 통하여, 사용자의 제스처 및/또는 상대방의 제스처를, 입력으로서, 획득할 수 있다. 예를 들어, 프로세서(570)는, 제 1 카메라(421)를 통하여, 사용자의 제스처(예: 사용자의 손의 움직임) 및/또는 상대방의 제스처(예: 상대방의 손의 움직임)에 대한 이미지를 획득할 수 있다. 일 실시예에서, 사용자의 제스처 및/또는 상대방의 제스처는, 수어(또는 "수화 언어"로도 지칭됨)를 나타내는 사용자 및/또는 상대방의 손의 움직임을 포함할 수 있다. 일 실시예에서, 사용자의 제스처 및/또는 상대방의 제스처는, 지정된 내용(또는 의미)에 대응하는 움직임을 포함할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 카메라(422)를 통하여, 사용자의 얼굴 표정을, 입력으로서, 획득할 수 있다. 예를 들어, 프로세서(570)는, 제 2 카메라(422)를 통하여, 사용자의 얼굴을 포함하는 이미지를 획득할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 마이크(411)를 통하여 입력되는 사용자의 음성 및/또는 제 2 마이크(412)를 통하여 입력되는 상대방의 음성을, 입력으로서, 획득할 수 있다. 일 실시예에서, 프로세서(570)는, 제 2 마이크(412)를 통하여 입력되는 전자 장치(401)의 주변 소리를, 입력으로서, 획득할 수 있다.
일 실시예에서, 프로세서(570)는, 통신 모듈(530)을 통하여, 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자가 상대방과 통화하는 동안, 통신 모듈(530)을 통하여 수신되는 상대방의 음성 신호를, 입력으로서, 획득할 수 있다.
일 실시예에서, 프로세서(570)는, 외부 입력 장치를 이용하여, 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 비전 방식을 이용한 입력 장치의 LED로부터 방출된 광을 센싱함으로써 획득된 사용자의 제스처(예: 사용자의 손의 움직임)를, 입력으로서, 획득할 수 있다. 다른 예를 들어, 프로세서(570)는, 장갑 형태의 입력 장치로부터 수신된, 사용자의 제스처(예: 사용자의 손의 움직임)를, 입력으로서, 획득할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 암 밴드 및/또는 손목 밴드로부터 수신된, 사용자의 손의 움직임 및/또는 건강 정보를, 입력으로서, 획득할 수 있다.
다만, 프로세서(570)가 획득 가능한 입력은 전술한 입력들에 제한되지 않는다.
동작 703에서, 일 실시예에서, 프로세서(570)는, 입력의 종류를 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 동작 701을 통하여 획득된 입력의 종류가, 제스처, 음성(및/또는 주변 소리), 사용자의 얼굴 표정, 및 건강 정보 중 적어도 하나에 해당하는지 여부를 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 카메라(421)를 통하여 획득된 이미지를 분석함으로써, 입력된 제스처가 사용자의 제스처 및 상대방의 제스처 중 어느 하나에 해당하는지 여부를 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 입력된 음성이, 사용자가 발화한 음성인지 또는 상대방이 발화한 음성인지 여부를 확인할 수 있다. 예를 들어, 프로세서(570)는, 음성을 획득한 구성(예: 장치)을 확인함으로써, 입력된 음성이, 사용자가 발화한 음성인지 또는 상대방이 발화한 음성인지 여부를 확인할 수 있다. 프로세서(570)는, 음성이 제 1 마이크(411)를 통하여 획득된 경우, 입력된 음성이 사용자가 발화한 음성인 것으로 확인할 수 있다. 프로세서(570)는, 음성이 제 2 마이크(412)를 통하여 획득된 경우, 입력된 음성이 상대방이 발화한 음성인 것으로 확인할 수 있다. 다른 예를 들어, 프로세서(570)는, 입력된 음성의 음색에 기반하여, 입력된 음성이, 사용자가 발화한 음성인지 또는 상대방이 발화한 음성인지 여부를 확인할 수 있다. 프로세서(570)는, 입력된 음성의 음색이 사용자에 대응하는 경우, 입력된 음성이 사용자가 발화한 음성인 것으로 확인할 수 있다. 프로세서(570)는, 입력된 음성의 음색이 상대방에 대응하는 경우, 입력된 음성이 상대방이 발화한 음성인 것으로 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 카메라(422)를 통하여 획득된 이미지를 분석함으로써, 입력이 사용자의 얼굴 표정임을 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 건강 정보를 수신하는 경우, 입력이 건강 정보임을 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 획득된 입력을 텍스트로 변환할 수 있다.
일 실시예에서, 프로세서(570)는, 획득된 입력이 텍스트로 변환 가능한지 여부를 확인할 수 있다. 프로세서(570)는, 획득된 입력이 텍스트로 변환 가능한 경우, 획득된 입력에 대응하는 정보(예: 획득된 입력이 나타내는 정보)를 텍스트로 변환할 수 있다. 예를 들어, 프로세서(570)는, 입력된 제스처(예: 사용자의 제스처 및/또는 상대방의 제스처)가 수어에 해당하는지 여부를 확인할 수 있다. 프로세서(570)는, 제 1 카메라(421)를 통하여 획득된 제스처에 대한 이미지를 분석함으로써, 입력된 제스처가 수어에 해당하는지 여부를 확인할 수 있다. 프로세서(570)는, 입력된 제스처가 수어에 해당하는 경우, 입력된 제스처가 텍스트로 변환 가능한 것으로 확인할 수 있다. 프로세서(570)는, 입력된 제스처가 나타내는 수어의 내용을, 텍스트로 변환할 수 있다. 다른 예를 들어, 프로세서(570)는, 입력된 제스처(예: 사용자의 제스처 및/또는 상대방의 제스처)가 지정된 제스처(예: 메모리(560) 내에서, 지정된 내용에 매핑되어 저장된 제스처)에 대응하는지 여부를 확인할 수 있다. 프로세서(570)는, 제 1 카메라(421)를 통하여 획득된 제스처에 대한 이미지를 분석함으로써, 입력된 제스처가 지정된 제스처에 대응하는지 여부를 확인할 수 있다. 프로세서(570)는, 입력된 제스처가 지정된 제스처에 해당하는 경우, 입력된 제스처가 텍스트로 변환 가능한 것으로 확인할 수 있다. 프로세서(570)는, 입력된 제스처를, 지정된 제스처에 대응하는 정보를 포함하는 텍스트로 변환할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 입력된 사용자의 얼굴 표정이 지정된 얼굴 표정(예: 메모리(560)에 저장된 얼굴 표정)에 대응하는지 여부를 확인할 수 있다. 프로세서(570)는, 제 2 카메라(422)를 통하여 획득된 사용자의 얼굴에 대한 이미지를 분석함으로써, 사용자의 얼굴 표정을 확인할 수 있다. 프로세서(570)는, 사용자의 얼굴 표정이 지정된 얼굴 표정에 대응하는 경우, 입력된 사용자의 얼굴 표정이 텍스트로 변환 가능한 것으로 확인할 수 있다. 프로세서(570)는, 입력된 사용자의 얼굴 표정을, 입력된 사용자의 얼굴 표정을 나타내는 내용(또는 입력된 사용자의 얼굴 표정에 대응하는 감정)을 포함하는 텍스트로 변환할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 입력된 사용자의 음성 및/또는 상대방의 음성이 텍스트로 변환 가능한지 여부를 확인할 수 있다. 프로세서(570)는, 입력된 사용자의 음성 및/또는 상대방의 음성이 텍스트로 변환 가능한 경우, 입력된 사용자의 음성 및/또는 상대방의 음성을, 텍스트로 변환할 수 있다. 예를 들어, 프로세서(570)는, STT 프로그램을 이용하여, 입력된 사용자의 음성 및/또는 상대방의 음성을, 텍스트로 변환할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 사용자가 상대방과 통화하는 동안, 통신 모듈(530)을 통하여 수신되는 상대방의 음성 신호가 텍스트로 변환 가능한지 여부를 확인할 수 있다. 프로세서(570)는, 상기 상대방의 음성 신호가 텍스트로 변환 가능한 경우, 상기 상대방의 음성 신호를, 텍스트로 변환할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 수신된, 건강 정보가 텍스트로 변환 가능한지 여부를 확인할 수 있다. 프로세서(570)는, 상기 건강 정보가 텍스트로 변환 가능한 경우, 상기 건강 정보를, 텍스트로 변환할 수 있다.
동작 705에서, 일 실시예에서, 프로세서(570)는, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 입력에 대응하는 정보를 하나 이상의 스피커들(예: 제 1 스피커(441), 제 2 스피커(442))을 통하여 출력할지 여부 및/또는 디스플레이(550)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 입력에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 디스플레이(550)를 통하여 표시되는 가상 키보드를 통한 사용자 입력에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 것으로 결정할 수 있다. 다른 예를 들어, 프로세서(570)는, 입력된 사용자의 음성 및/또는 사용자의 제스처가 지정된 사용자의 음성 및/또는 사용자의 제스처에 대응하는 경우, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 것으로 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력에 대응하는 정보를 스피커(540)를 통하여 출력하지 않는 것으로 결정된 경우, 입력에 대응하는 정보를 디스플레이(550)를 통하여 표시할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력에 대응하는 정보를 스피커(540) 및 디스플레이(550)를 모두 이용하여 출력할 것으로 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력의 종류에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 입력 및/또는 입력의 종류에 기반하여, 입력에 대응하는 정보를 스피커(540)를 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력의 종류에 기반하여, 입력에 대응하는 정보를 출력할 구성을 결정할 수 있다. 일 실시예에서, 프로세서(570)는, 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다. 프로세서(570)는 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보(예: 사용자의 음성에 대응하는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고, 동시에, 사용자의 음성에 대응하는 정보(예: 사용자의 음성에 대응하는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 프로세서(570)는, 입력의 종류가 상대방의 음성인 경우, 상대방의 음성에 대응하는 정보를 제 2 스피커(442)를 통하여 출력하고, 동시에, 상대방의 음성에 대응하는 정보를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 다만, 이에 제한되지 않는다. 예를 들어, 프로세서(570)는, 입력의 종류가 사용자의 음성인 경우, 사용자의 음성에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고, 동시에, 사용자의 음성에 대응하는 정보를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 다른 예를 들어, 프로세서(570)는, 입력의 종류가 상대방의 음성인 경우, 상대방의 음성을 제 2 스피커(442)를 통하여 출력하고, 동시에, 상대방의 음성에 대응하는 정보를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력의 종류가 사용자의 음성 또는 상대방의 음성인 경우, 사용자의 음성 또는 상대방의 음성에 대응하는 정보를, 사용자의 음성 또는 상대방의 음성의 언어와 다른 언어로 번역할 수 있다. 프로세서(570)는, 다른 언어로 번역된, 사용자의 음성 또는 상대방의 음성에 대응하는 정보를, 디스플레이(550) 통하여 표시할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력의 종류가 사용자의 제스처인 경우, 사용자의 제스처에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다. 프로세서(570)는, 입력의 종류가 사용자의 제스처인 경우, 사용자의 제스처에 대응하는 정보(예: 사용자의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 프로세서(570)는, 입력의 종류가 상대방의 제스처인 경우, 상대방의 제스처에 대응하는 정보를 제 2 스피커(442)를 통하여 출력할 수 있다. 프로세서(570)는, 입력의 종류가 상대방의 제스처인 경우, 상대방의 제스처에 대응하는 정보(예: 상대방의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력의 종류가 사용자의 제스처인 경우, 사용자의 제스처에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고, 동시에, 사용자의 제스처에 대응하는 정보(예: 사용자의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다. 프로세서(570)는, 입력의 종류가 상대방의 제스처인 경우, 상대방의 제스처에 대응하는 정보를 제 2 스피커(442)를 통하여 출력하고, 동시에, 상대방의 제스처에 대응하는 정보(예: 상대방의 제스처에 대응하는 정보를 나타내는 텍스트)를 포함하는 내부 화면을 디스플레이(550)를 통하여 표시할 것으로 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 전자 장치(401)의 주변 환경(예: 주변 소리, 전자 장치(401) 외부의 밝기(예: 전자 장치(401)로 입사하는 광의 세기), 및 전자 장치(401) 및 상대방 간 거리)에 기반하여, 입력에 대응하는 정보를 스피커를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력된 사용자의 얼굴 표정(및/또는 입력이 사용자 얼굴 표정에 대응하는 사용자의 감정) 및/또는 건강 정보를, 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 입력된 사용자의 음성 또는 상대방의 음성에 기반하여, 사용자의 감정 또는 상대방의 감정을 획득할 수 있다. 프로세서(570)는, 사용자의 감정 또는 상대방의 감정을 나타내는 정보를, 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를, 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 복수의 입력이 획득된 경우, 사용자 입력 또는 복수의 입력의 종류에 기반하여, 복수의 입력에 대응하는 정보를, 스피커(540) 및/또는 디스플레이(550)를 통하여, 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보(예: 복수의 입력 각각에 대응하는 정보를 나타내는 텍스트가 변환된 오디오)를, 스피커(540)를 통하여 출력할 것으로 결정할 수 있다. 예를 들어, 프로세서(570)는, 제 1 입력 및 제 2 입력이 획득된 경우, 제 1 입력에 대응하는 정보를 나타내는 제 1 오디오 및 제 2 입력에 대응하는 정보를 나타내는 제 2 오디오를, 동시에, 스피커(540)를 통하여 출력할 것으로 결정할 수 있다. 일 실시예에서, 프로세서(570)는, 복수의 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 것이 결정된 경우, 복수의 입력에 대응하는 정보를 나타내는 오디오가 서로 다른 음색을 가지도록, 할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 및 상대방의 제스처가 동시에 입력된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색을 적용하고, 상대방의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 상대방의 음색을 적용할 것을 결정할 수 있다. 다만, 이에 제한되지 않는다. 일 실시예에서, 프로세서(570)는, 복수의 입력에 대응하는 정보를 나타내는 오디오가 서로 다른 레벨(또는 음량)을 가지도록 할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 및 상대방의 제스처가 동시에 입력된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오가 제 1 레벨을 가지도록 하고, 상대방의 제스처에 대응하는 정보를 나타내는 오디오가 제 1 레벨 보다 높은 제 2 레벨을 가지도록 할 수 있다. 일 실시예에서, 프로세서(570)는, 복수의 입력에 대응하는 정보를 나타내는 오디오를, 순차적으로 출력할 것을 결정할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 및 상대방의 제스처가 동시에 입력된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 출력한 후, 연속적으로 상대방의 제스처에 대응하는 정보를 나타내는 오디오를 출력할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 복수의 입력이 획득된 경우, 복수의 입력에 대하여 우선순위를 할당할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처에 대하여 상대방의 제스처 보다 높은 우선 순위를 할당할 수 있다.
일 실시예에서, 프로세서(570)는, 복수의 입력에 대한 우선순위에 기반하여, 복수의 입력에 대응하는 정보를 나타내는 오디오의 음색, 오디오의 레벨, 및/또는 오디오의 출력 순서를 결정할 수 있다. 예를 들어, 프로세서(570)는, 제 1 입력이 제 2 입력에 비하여 높은 우선 순위가 할당된 경우, 제 1 입력에 대하여 제 1 음색을 가지는 오디오를 출력할 것을 결정하고, 제 2 입력에 대하여 제 2 음색을 가지는 오디오를 출력할 것을 결정할 수 있다. 다른 예를 들어, 프로세서(570)는, 제 1 입력이 제 2 입력에 비하여 높은 우선 순위가 할당된 경우, 제 1 입력에 대하여 제 1 레벨을 가지는 오디오를 출력할 것을 결정하고, 제 2 입력에 대하여 제 1 레벨 보다 낮은 제 2 레벨을 가지는 오디오를 출력할 것을 결정할 수 있다. 다른 예를 들어, 프로세서(570)는, 제 1 입력이 제 2 입력에 비하여 높은 우선 순위가 할당된 경우, 제 1 입력에 대응하는 정보를 나타내는 오디오를 제 2 입력에 대응하는 정보를 나타내는 오디오 보다 먼저 출력할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 입력(예: 가상 키보드를 통한 사용자 입력)에 기반하여, 복수의 입력에 할당되는 우선순위를 설정할 수 있다. 다만, 프로세서(570)가 복수의 입력에 대한 우선순위를 설정하는 방법은 사용자 입력에 제한되지 않는다.
일 실시예에서, 프로세서(570)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를, 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처, 사용자의 음성, 가상 키보드를 통한 사용자 입력, 및 사용자의 건강 정보 중에서, 적어도 2개의 입력이 획득된 경우, 획득된 적어도 2개의 입력을 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다. 프로세서(570)는, 적어도 2개의 입력에 대응하는 정보를 나타내는 텍스트들(및/또는 이미지들)이 서로 구별되도록, 텍스트들의 크기들, 텍스트들의 색상들, 텍스트들이 출력될 투명 부재 상의 영역들, 및/또는 텍스트들의 언어들을 다르게 출력할 것을 결정할 수 있다. 다만, 프로세서(570)가 획득된 적어도 2개의 입력에 대응하는 정보를 나타내는 텍스트들이 서로 구별되도록 디스플레이(550)를 통하여 출력하는 방법은 전술한 예시에 제한되지 않는다.
일 실시예에서, 프로세서(570)는, 복수의 입력이 획득된 경우, 복수의 입력에 대응하는 정보를, 아바타를 이용하여, 디스플레이(550) 및 스피커(540)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처, 사용자의 음성, 및 사용자의 얼굴 표정(및 건강 정보)이 입력된 경우, 사용자에 대응하는 아바타가, 사용자의 제스처에 대응하는 움직임을 수행하고, 사용자의 얼굴 표정에 대응하는 표정을 나타내도록, 디스플레이(550)를 제어할 수 있다. 프로세서(570)는, 사용자의 음성에 대응하는 정보를 나타내는 오디오에 사용자에 대응하는 아바타의 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자가 상대방과 통화를 수행하는 동안, 사용자의 제스처 및/또는 사용자의 음성과 관련된 오디오 신호를, 상대방의 전자 장치로 전송할 것을 결정할 수 있다. 일 실시예에서, 프로세서(570)는, 사용자가 상대방과 통화를 수행하는 동안, 상대방의 제스처 및/또는 상대방 음성과 관련된 오디오 신호에 대하여, 스피커(540)를 통하여 결정할지 여부를 결정할 수 있다.
동작 707에서, 일 실시예에서, 프로세서(570)는, 입력의 종류에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 수 있다. 예를 들어, 프로세서(570)는, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 것으로 결정함에 기반하여, 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는 입력에 대응하는 정보를 처리할 수 있다. 예를 들어, 프로세서(570)는, 입력에 대응하는 정보를 나타내는 오디오를 스피커를 통하여 출력할 것으로 결정한 경우, TTS 프로그램을 이용하여, 입력에 대응하는 정보를 나타내는 텍스트를 오디오로 변환할 수 있다. 프로세서(570)는, 입력에 대응하는 정보를 나타내는 텍스트를 오디오로 변환한 후, 변환된 오디오를 스피커(540)를 통하여 출력할 수 있다. 다른 예를 들어, 프로세서(570)는, 입력에 대응하는 정보를 나타내는 오디오에 대하여 제 1 음색을 적용할 것을 결정하는 경우, TTS 음색 DB(561)로부터 제 1 음색을 획득할 수 있다. 프로세서(570)는, 입력에 대응하는 정보를 나타내는 오디오에 대하여 제 1 음색을 적용할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 출력 판단부가 복수의 입력에 대응하는 정보를 스피커(540)를 통하여 동시에 출력할 것을 결정한 경우, 복수의 입력에 대응하는 정보를 나타내는 오디오를 믹싱함으로써, 복수의 입력에 대응하는 정보를 나타내는 오디오가 동시에 출력되도록 할 수 있다. 다만, 이에 제한되지 않는다.
도 7에서는, 동작 705의 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정하는 동작이 동작 701 및 동작 703이 수행된 후 수행되는 것으로 예시하고 있지만, 이에 제한되지 않는다. 일 실시예에서, 프로세서(570)는, 동작 701 및/또는 동작 703을 수행하기 전, 하나 이상의 입력 모듈들을 통하여 획득될 입력에 대하여, 스피커(540)를 통하여 출력할지 여부(및/또는 디스플레이(550)를 통하여 출력할지 여부)를 결정할 수 있다. 예를 들어, 프로세서(570)는, 동작 701 및/또는 동작 703을 수행하기 전, 사용자 입력 및/또는 전자 장치(401) 설정에 기반하여, 하나 이상의 입력 모듈들을 통하여 획득될 입력에 대하여, 스피커(540)를 통하여 출력할지 여부(및/또는 디스플레이(550)를 통하여 출력할지 여부)를 결정할 수 있다.
도 8은, 다양한 실시예들에 따른, 제스처에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(800)이다.
도 8을 참조하면, 동작 801에서, 일 실시예에서, 프로세서(570)는, 하나 이상의 입력 모듈들을 통하여 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 하나 이상의 입력 모듈들(예: 제 1 카메라(421))을 통하여, 사용자의 제스처 및/또는 상대방의 제스처와 관련된 제스처 입력을 획득할 수 있다. 다른 예를 들어, 프로세서(570)는, 외부 입력 장치(예: 비전 방식을 이용한 입력 장치, 장갑 형태의 입력 장치, 또는 암 밴드 및/또는 손목 밴드)를 이용하여, 사용자의 제스처와 관련된 제스처 입력을 획득할 수 있다.
동작 803에서, 일 실시예에서, 프로세서(570)는, 입력의 종류가 제스처 입력임을 확인할 수 있다. 예를 들어, 프로세서(570)는, 입력의 종류가 사용자의 제스처 및/또는 상대방의 제스처와 관련된 제스처 입력임을 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 카메라(421)를 통하여 획득된 이미지를 분석함으로써, 입력된 제스처가 사용자의 제스처 및 상대방의 제스처 중 어느 하나에 해당하는지 여부를 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 통신 모듈(530)을 통하여, 외부 입력 장치(예: 비전 방식을 이용한 입력 장치, 장갑 형태의 입력 장치, 또는 암 밴드 및/또는 손목 밴드)로부터 수신되는 정보를 분석함으로써, 입력의 종류가 사용자의 제스처 입력임을 확인할 수 있다.
일 실시예에서, 프로세서(570)는 제스처 입력을 텍스트로 변환할 수 있다. 일 실시예에서, 프로세서(570)는, 제스처 입력이 텍스트로 변환 가능한지 여부를 확인할 수 있다. 예를 들어, 프로세서(570)는, 제스처 입력(예: 사용자의 제스처 입력 및/또는 상대방의 제스처 입력)가 수어에 해당하는 경우, 제스처 입력이 텍스트로 변환 가능한 것으로 확인할 수 있다. 프로세서(570)는, 제스처 입력이 텍스트로 변환 가능한 것으로 확인된 경우, 제스처 입력(예: 수어의 내용)을 텍스트로 변환할 수 있다. 다른 예를 들어, 프로세서(570)는, 제스처 입력(예: 사용자의 제스처 입력 및/또는 상대방의 제스처 입력)가 지정된 제스처 입력에 해당하는 경우, 제스처 입력이 텍스트로 변환 가능한 것으로 확인할 수 있다. 프로세서(570)는, 제스처 입력이 텍스트로 변환 가능한 것으로 확인된 경우, 제스처 입력(예: 지정된 제스처에 대응하는 정보)을 텍스트로 변환할 수 있다.
동작 805에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 제스처 입력에 대응하는 정보를 하나 이상의 스피커들(예: 제 1 스피커(441), 제 2 스피커(442))을 통하여 출력할지 여부 및/또는 디스플레이(550)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 설정에 기반하여, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 사용자는, 사용자 자신의 제스처에 대응하는 정보를 나타내는 오디오를 듣기 위하여, 사용자의 제스처에 대응하는 정보를 나타내는 오디오가 제 2 스피커(442)를 통하여 출력되도록 하는 설정(또는 "모드")(이하, "제 1 설정"으로 지칭함)을, 설정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 설정이 설정되고 입력의 종류가 사용자의 제스처 입력으로 확인된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색(또는 사용자에 의해 지정된 음색)을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 설정이 설정되고, 사용자의 제스처 입력 외, 제 2 카메라(422)를 통하여 사용자의 얼굴 표정이 입력되는 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색 및/또는 사용자의 얼굴 표정(또는 사용자의 얼굴 표정에 대응하는 감정)에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 설정이 설정되고, 사용자의 제스처 입력 외, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 사용자의 건강 정보(예: 심박수, 체지방율, 신경 세포의 전기적 신호)가 수신되는 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색 및/또는 사용자의 건강 정보에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 설정이 설정되고, 사용자의 제스처 입력 외, 제 2 카메라(422)를 통하여 사용자의 얼굴 표정이 입력되고, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 사용자의 건강 정보가 수신되는 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색, 사용자의 얼굴 표정, 및/또는 사용자의 건강 정보에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 설정에 기반하여, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 제 1 스피커(441)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 사용자는, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 전자 장치(401)(또는 전자 장치(401)의 사용자)와 인접한 위치에 위치한 상대방이 듣도록, 사용자의 제스처에 대응하는 정보를 나타내는 오디오가 제 1 스피커(441)를 통하여 출력되도록 하는 설정(이하, "제 2 설정"으로 지칭함)을, 설정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 설정이 설정되고, 입력의 종류가 사용자의 제스처 입력으로 확인된 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색(또는 사용자에 의해 지정된 음색)을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 설정이 설정되고, 사용자의 제스처 입력 외, 제 2 카메라(422)를 통하여 사용자의 얼굴 표정이 입력되는 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색 및/또는 사용자의 얼굴 표정(또는 사용자의 얼굴 표정에 대응하는 감정)에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 설정이 설정되고, 사용자의 제스처 입력 외, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 사용자의 건강 정보(예: 심박수, 체지방율, 신경 세포의 전기적 신호)가 수신되는 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색 및/또는 사용자의 건강 정보에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 설정이 설정되고, 사용자의 제스처 입력 외, 제 2 카메라(422)를 통하여 사용자의 얼굴 표정이 입력되고, 외부 입력 장치(예: 암 밴드 및/또는 손목 밴드)로부터 사용자의 건강 정보가 수신되는 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색, 사용자의 얼굴 표정, 및/또는 사용자의 건강 정보에 대응하는 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 설정이 설정된 경우, 상대방 정보(예: 상대방의 성별, 나이, 및/또는 직업)에 기반하여, 사용자의 제스처 입력에 대응하는 정보를 나타내는 오디오에 적용될 음색을 결정할 수 있다. 예를 들어, 프로세서(570)는, 제 2 설정이 설정되고 입력의 종류가 사용자의 제스처 입력인 경우, 상대방이 영유아임에 기반하여, 사용자의 제스처 입력에 대응하는 정보를 나타내는 오디오에 대하여, 만화 캐릭터의 음색을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 2 설정이 설정되고 입력의 종류가 사용자의 제스처 입력인 경우, 전자 장치(401) 및 상대방과의 거리에 기반하여, 사용자의 제스처 입력에 대응하는 정보를 나타내는 오디오의 레벨을 결정할 수 있다. 예를 들어, 프로세서(570)는, 제 2 설정이 설정되고 입력의 종류가 사용자의 제스처 입력인 경우, 전자 장치(401) 및 상대방과의 거리가 멀수록, 사용자의 제스처 입력에 대응하는 정보를 나타내는 오디오가 높은 레벨을 가지도록, 할 수 있다.
일 실시예에서, 프로세서(570)는, 설정에 기반하여, 상대방의 제스처에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 것을 결정할 수 있다. 예를 들어, 사용자는, 상대방의 제스처에 대응하는 정보를 나타내는 오디오를 듣기 위하여, 상대방의 제스처에 대응하는 정보를 나타내는 오디오가 제 2 스피커(442)를 통하여 출력되도록 하는 설정(이하, "제 3 설정"으로 지칭함)을, 설정할 수 있다.
일 실시예에서, 프로세서(570)는, 제 3 설정이 설정되고, 입력의 종류가 상대방의 제스처 입력으로 확인된 경우, 상대방의 제스처에 대응하는 정보를 나타내는 오디오에 대하여 상대방의 음색(또는 사용자에 의해 지정된 음색)을 적용할 것을 결정할 수 있다. 프로세서(570)는, 상대방의 음색에 대한 정보가 메모리(560)에 저장되지 않은 경우, 상대방의 제스처에 대응하는 정보를 나타내는 오디오에 대하여, 사용자의 음색(또는 사용자에 의해 지정된 음색)을 적용할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 입력, 입력의 종류, 및/또는 상대방의 존재(예: 전자 장치(401)에 인접하여 상대방이 위치하는지 여부)에 기반하여, 제 1 설정, 제 2 설정, 및/또는 제 3 설정을 설정할 수 있다. 예를 들어, 프로세서(570)는, 상대방이 전자 장치(401)로부터 지정된 거리(예: 약 2m) 내에 존재하는 경우, 제 2 설정 및 제 3 설정을 설정할 수 있다. 다른 예를 들어, 프로세서(570)는, 상대방이 전자 장치(401)로부터 지정된 거리 내에 존재하지 않는 경우(예: 전자 장치(401) 주변에 상대방이 존재하지 않는 경우), 제 1 설정을 설정할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 입력의 종류가 사용자의 제스처 입력이고 상대방이 전자 장치(401)로부터 지정된 거리 내에 존재하는 경우, 제 2 설정을 설정할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 입력의 종류가 상대방의 제스처 입력이고 상대방이 전자 장치(401)로부터 지정된 거리 내에 존재하는 경우, 제 3 설정을 설정할 수 있다. 또 다른 예를 들어, 프로세서(570)는, 입력의 종류가 사용자의 제스처 입력이고 상대방이 전자 장치(401)로부터 지정된 거리 내에 존재하지 않는 경우, 제 1 설정을 설정할 수 있다.
동작 807에서, 일 실시예에서, 프로세서(570)는, 제스처에 대응하는 정보를 스피커(540)를 통하여 출력할 것을 결정한 경우, 제스처에 대응하는 정보를 스피커(540)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 제 1 설정이 설정되고 사용자의 제스처 입력에 대하여 제 2 스피커(442)로 출력할 것을 결정한 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 수 있다. 프로세서(570)는, 제 2 설정이 설정되고 사용자의 제스처 입력에 대하여 제 1 스피커(441)로 출력할 것을 결정한 경우, 사용자의 제스처에 대응하는 정보를 나타내는 오디오를 제 1 스피커(441)를 통하여 출력할 수 있다. 프로세서(570)는, 제 3 설정이 설정되고 상대방의 제스처 입력에 대하여 제 2 스피커(442)로 출력할 것을 결정한 경우, 상대방의 제스처에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 동작 805를 통하여 결정된 음색을 가지는, 제스처 입력에 대응하는 오디오를, 스피커를 통하여 출력할 수 있다. 일 실시예에서, 동작 805를 통하여 결정된 오디오의 레벨을 가지는, 제스처 입력에 대응하는 오디오를, 스피커를 통하여 출력할 수 있다.
도 9는, 다양한 실시예들에 따른, 제스처에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(900)이다.
일 실시예에서, 도 9는, 사용자의 제스처에 대응하는 정보를 스피커(예: 제 1 스피커(441))를 통하여 출력하는 동안, 사용자의 음성이 입력되는 경우 수행되는 동작을 설명하기 위한 도면일 수 있다.
도 9를 참조하면, 동작 901에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보(예: 제스처 입력에 대응하는 정보를 나타내는 오디오)를 스피커(540)를 통하여 출력하는 동안, 사용자의 음성 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력하는 동안, 제 1 마이크(411)를 통하여 사용자의 음성 입력을 획득할 수 있다. 다만, 이에 제한되지 않으며, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력하는 동안, 제 2 카메라(422)를 통하여 획득된 이미지(예: 사용자의 안면의 근육 움직임에 대한 이미지)에 기반하여, 사용자가 음성을 발화하고 있음을 확인할 수 있다.
동작 903에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 스피커를 통하여 출력하는 동안 사용자의 음성 입력이 획득되는 경우(또는 사용자의 안면의 근육 움직임에 대한 이미지에 기반하여 사용자가 음성을 발화하고 있음을 확인한 경우), 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력하는 동작을 중단할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하는 동안 사용자의 음성 입력이 획득되는 경우, 사용자에 의해 발화된 음성이 상대방에게 정확하게 전달되도록, 사용자의 제스처 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하는 동작을 중단할 수 있다. 다른 예를 들어, 사용자의 제스처 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하는 동안 사용자의 음성 입력이 획득되고, 상대방이 전자 장치(401)로부터 지정된 거리 내에 위치하는 경우, 사용자에 의해 발화된 음성이 상대방에게 정확하게 전달되도록, 사용자의 제스처 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하는 동작을 중단할 수 있다. 또 다른 예를 들어, 사용자의 제스처 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하는 동안 사용자의 음성 입력이 획득되고, 상대방이 전자 장치(401)로부터 지정된 거리 내에 위치하지 않는 경우, 사용자의 제스처 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하는 동작을 중단하지 않을 수 있다.
도 10은, 다양한 실시예들에 따른, 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1000)이다.
도 10을 참조하면, 동작 1001에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보(예: 제스처 입력에 대응하는 정보를 나타내는 오디오)를 스피커(540)를 통하여 출력하는 동안, 사용자의 음성 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력하는 동안, 제 1 마이크(411)를 통하여 사용자의 음성 입력을 획득할 수 있다.
동작 1003에서, 일 실시예에서, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 음성을 텍스트로 변환함으로써, 사용자의 음성 입력에 대응하는 정보를 획득할 수 있다.
동작 1005에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 제 1 음색을 가지는 제 1 오디오로 변환하고, 사용자의 음성 입력에 대응하는 정보를 제 2 음색을 가지는 제 2 오디오로 변환할 수 있다.
일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오 및 사용자의 음성 입력에 대응하는 정보를 나타내는 제 2 오디오에 대하여 서로 다른 음색들을 적용할 것을 결정할 수 있다. 예를 들어, 프로세서(570)는, 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오에 대하여 남성의 음색을 적용하고, 사용자의 음성 입력에 대응하는 정보를 나타내는 제 2 오디오에 대하여 여성의 음색을 적용할 것을 결정할 수 있다.
동작 1007에서, 일 실시예에서, 프로세서(570)는, 스피커(540)를 통하여, 제 1 오디오 및 제 2 오디오를 출력할 수 있다. 예를 들어, 프로세서(570)는, 제 1 음색을 가지는 제 1 오디오 및 제 2 음색을 가지는 제 2 오디오를 믹싱하고, 믹싱된 제 1 오디오 및 제 2 오디오를 제 1 스피커(441)를 통하여 출력할 수 있다. 다만, 이에 제한되지 않으며, 프로세서(570)는, 제 1 오디오 및 제 2 오디오를 믹싱함 없이, 제 1 오디오 및 제 2 오디오를 제 1 스피커(441)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력하는 동안 사용자의 음성 입력이 획득되는 경우, 사용자 입력에 기반하여, 도 9를 통하여 설명한 바와 같이 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력하는 동작을 중단하거나, 도 10을 통하여 설명한 바와 같이 서로 다른 음색들이 적용된 제스처 입력에 대응하는 정보(예: 제 1 오디오) 및 사용자의 음성 입력에 대응하는 정보(예: 제 2 오디오)를 스피커를 통하여 동시에 출력할 수 있다.
도 11은, 다양한 실시예들에 따른, 통화를 수행하는 동안 제스처에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1100)이다.
도 11을 참조하면, 동작 1101에서, 일 실시예에서, 프로세서(570)는, 사용자가 상대방과 통화를 수행하는 동안, 제스처 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자가 전자 장치(401)를 이용하여 상대방과 통화를 수행하는 동안 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여, 사용자의 제스처 입력을 획득할 수 있다.
동작 1103에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 확인할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 입력을 텍스트로 변환함으로써, 제스처 입력에 대응하는 정보(예: 수어의 내용, 지정된 제스처에 대응하는 정보)를 확인할 수 있다.
동작 1105에서, 일 실시예에서, 프로세서(570)는, 통신 모듈(530)을 통하여, 제스처 입력에 대응하는 정보를, 외부 전자 장치(예: 전자 장치(102), 전자 장치(104))로 전송할 수 있다. 예를 들어, 프로세서(570)는 제스처 입력에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색(또는 사용자에 의해 지정된 음색)을 적용할 수 있다. 프로세서(570)는, 사용자의 음색이 적용된 오디오의 신호가 사용자와 통화 중인 상대방의 전자 장치에서 출력되도록, 통신 모듈(530)을 통하여, 상기 오디오 신호를 상대방의 전자 장치로 전송할 수 있다.
일 실시예에서, 사용자가 상대방과 통화를 수행하는 동안 프로세서(570)가 사용자의 제스처에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송함으로써, 사용자가 도서관과 같이 조용한 장소에서 제스처를 이용하여 상대방과 통화를 수행할 수 있다.
도 11에서, 프로세서(570)가 통신 모듈(530)을 통하여 제스처 입력에 대응하는 정보를 나타내는 오디오의 신호를, 외부 전자 장치로 전송하는 것으로 예시하고 있지만 이에 제한되지 않는다. 예를 들어, 프로세서(570)는, 통신 모듈(530)을 통하여, 제스처 입력에 대응하는 정보를 나타내는 텍스트를(예: 텍스트를 TTS 프로그램을 이용하여 오디오로 변환함 없이) 외부 전자 장치로 전송할 수 있다.
일 실시예에서, 프로세서(570)는, 통신 모듈(530)을 통하여, 외부 전자 장치로부터, 상대방의 전자 장치에서 획득된 상대방의 제스처 입력에 대응하는 정보를 나타내는 오디오의 신호를 수신할 수 있다. 프로세서(570)는, 수신된 오디오의 신호를, 제 2 스피커(442)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 통신 모듈(530)을 통하여, 외부 전자 장치로부터, 상대방의 전자 장치에서 획득된 상대방의 제스처 입력에 대응하는 정보를 나타내는 텍스트를 수신할 수 있다. 프로세서(570)는, 수신된 텍스트를, TTS 프로그램을 이용하여 오디오로 변환하고, 변환된 오디오를 제 2 스피커(442)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자가 전자 장치(401)를 이용하여 상대방과 통화를 수행하는 동안 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여, 사용자의 제스처 입력을 획득하는 경우, 통신 모듈(530)을 통하여, 외부 전자 장치로부터, 상대방의 전자 장치에서 획득된 상대방의 음성에 대응하는 정보를 나타내는 오디오의 신호를 수신할 경우, 프로세서(570)는, 수신된 오디오의 신호를 텍스트로 변환하고, 텍스트를 디스플레이(550)를 통하여 출력할 수 있다.
도 12는, 다양한 실시예들에 따른, 통화를 수행하는 동안 사용자의 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1200)이다.
도 12를 참조하면, 동작 1201에서, 일 실시예에서, 프로세서(570)는, 사용자가 상대방과 통화를 수행하는 동안, 제스처 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자가 전자 장치(401)를 이용하여 상대방과 통화를 수행하는 동안 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여, 사용자의 제스처 입력을 획득할 수 있다.
동작 1203에서, 일 실시예에서, 프로세서(570)는, 통신 모듈(530)을 통하여, 제스처 입력에 대응하는 정보를, 외부 전자 장치(예: 전자 장치(102), 전자 장치(104))로 전송할 수 있다.
동작 1205에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송하는 동안, 마이크(510)를 통하여 사용자의 음성 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 제스처 입력에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송하는 동안, 제 1 마이크(411)를 통하여 사용자의 음성 입력을 획득할 수 있다.
동작 1207에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송하는 동작을 중단하고, 사용자의 음성 입력에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송할 수 있다.
일 실시예에서, 사용자가 도서관과 같이 조용한 장소에서 제스처를 이용하여 상대방과 통화를 수행하는 중에 사용자가 음성을 이용한 통화가 가능한 장소로 이동한 경우, 프로세서(570)는 제스처 입력에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송하는 동작을 중단하고, 사용자의 음성 입력에 대응하는 정보(사용자의 음성 입력에 대응하는 정보를 나타내는 오디오의 신호)를 통신 모듈(530)을 통하여 외부 전자 장치로 전송할 수 있다.
도 13은, 다양한 실시예들에 따른, 통화를 수행하는 동안 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1300)이다.
일 실시예에서, 도 13은, 사용자가, 사용자의 제스처 입력에 대응하는 정보를 디스플레이(550)를 통하여 상대방에게 표시하고, 사용자의 음성 입력에 대응하는 정보를 통화 중인 다른 상대방에게 전달하려는 경우 전자 장치(401)에서 수행되는 동작을 나타낼 수 있다.
도 13을 참조하면, 동작 1301에서, 일 실시예에서, 프로세서(570)는, 통화를 수행하는 동안, 사용자의 제스처 입력 및 사용자의 음성 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자가 다른 상대방과 통화를 수행하는 동안, 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여 사용자의 제스처 입력을 획득하고, 제 1 마이크(411)를 통하여 사용자의 음성 입력을 획득할 수 있다.
동작 1303에서, 일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 확인할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 입력을 텍스트로 변환함으로써, 제스처 입력에 대응하는 정보(예: 수어의 내용, 지정된 제스처에 대응하는 정보)를 확인할 수 있다.
동작 1305에서, 일 실시예에서, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 확인할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 음성 입력을 텍스트로 변환함으로써, 사용자의 음성 입력에 대응하는 정보를 획득할 수 있다.
동작 1307에서, 일 실시예에서, 프로세서(570)는, 제스처 입력에 대응하는 정보를 디스플레이(550)를 통하여 출력할 수 있다. 예를 들어, 프로세서(570)는, 전자 장치(401)에 인접한 상대방이 제스처 입력에 대응하는 정보를 나타내는 텍스트를 포함하는 외부 화면을 볼 수 있도록, 상기 외부 화면을 디스플레이(550)를 통하여 표시할 수 있다.
동작 1309에서, 일 실시예에서, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를, 통신 모듈(530)을 통하여 외부 전자 장치로 전송할 수 있다. 예를 들어. 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 나타내는 오디오의 신호를, 통신 모듈(530)을 통하여, 통화 중인 다른 상대방의 전자 장치로 전송할 수 있다.
도 14는, 다양한 실시예들에 따른, 통화를 수행하는 동안 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1400)이다.
일 실시예에서, 도 14는, 사용자가, 사용자의 제스처 입력에 대응하는 정보를 통화 중인 상대방에게 전달하고, 사용자의 음성 입력에 대응하는 정보를 전자 장치(401)에 인접한 상대방에게 전달하려는 경우 전자 장치(401)에서 수행되는 동작을 나타낼 수 있다.
도 14를 참조하면, 동작 1401에서, 일 실시예에서, 프로세서(570)는, 통화를 수행하는 동안, 사용자의 제스처 입력 및 사용자의 음성 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 사용자가 상대방과 통화를 수행하는 동안, 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여 사용자의 제스처 입력을 획득하고, 제 1 마이크(411)를 통하여 사용자의 음성 입력을 획득할 수 있다.
동작 1403에서, 일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 확인할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 제스처 입력을 텍스트로 변환함으로써, 제스처 입력에 대응하는 정보(예: 수어의 내용, 지정된 제스처에 대응하는 정보)를 확인할 수 있다.
동작 1405에서, 일 실시예에서, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 확인할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 음성 입력을 텍스트로 변환함으로써, 사용자의 음성 입력에 대응하는 정보를 획득할 수 있다.
동작 1407에서, 일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를, 통신 모듈(530)을 통하여 외부 전자 장치로 전송할 수 있다. 예를 들어. 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 나타내는 오디오에 대하여 사용자의 음색(또는 사용자에 의해 지정된 음색)을 적용할 수 있다. 프로세서(570)는, 사용자의 음색이 적용된 상기 오디오의 신호를, 통신 모듈(530)을 통하여, 통화 중인 상대방의 전자 장치로 전송할 수 있다. 일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를, 통신 모듈(530)을 통하여 외부 전자 장치로 전송하는 동안, 사용자의 음성 입력에 대응하는 정보가 통화 중인 상대방의 전자 장치로 전달되지 않도록, 제어할 수 있다.
동작 1409에서, 일 실시예에서, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 스피커(540)를 통하여 출력할 수 있다. 예를 들어, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다. 다만, 이에 제한되지 않는다. 프로세서(570)는, 사용자에 의해 발화된 음성이 전자 장치(401)에 인접한 상대방에게 직접 전달되도록, 사용자의 음성 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하지 않거나 제 1 스피커(441)를 비활성화할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 입력에 기반하여, 사용자의 제스처에 대응하는 정보를 제 1 스피커(441)를 통하여 출력하고 사용자의 음성 입력에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송하거나, 사용자의 제스처에 대응하는 정보를 통신 모듈(530)을 통하여 외부 전자 장치로 전송하고 사용자의 음성 입력에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다.
도 15는, 다양한 실시예들에 따른, 제스처에 대응하는 정보 및 음성에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1500)이다.
도 15를 참조하면, 동작 1501에서, 일 실시예에서, 프로세서(570)는, 사용자 제스처 입력 및 사용자의 음성 입력을 획득할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 제스처 입력 및 사용자의 음성 입력 외에, 사용자의 얼굴 표정 및/또는 사용자의 건강 정보를 획득할 수 있다.
동작 1503에서, 일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보를 확인할 수 있다.
동작 1505에서, 일 실시예에서, 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 확인할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자의 얼굴 표정을 나타내는 내용(또는 입력된 사용자의 얼굴 표정에 대응하는 감정) 및 건강 정보를 확인할 수 있다.
동작 1507에서, 일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보 및 사용자의 음성 입력에 대응하는 정보(및/또는 사용자의 얼굴 표정을 나타내는 내용 및 건강 정보)를 디스플레이(550)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자의 제스처 입력에 대응하는 정보 및 사용자의 음성 입력에 대응하는 정보(및/또는 사용자의 얼굴 표정을 나타내는 내용 및 건강 정보)가 서로 구별되도록, 사용자의 제스처 입력에 대응하는 정보 및 사용자의 음성 입력에 대응하는 정보(및/또는 사용자의 얼굴 표정을 나타내는 내용 및 건강 정보) 각각의 텍스트들의 크기들, 텍스트들의 색상들, 텍스트들이 출력될 투명 부재 상의 영역들, 및/또는 텍스트들의 언어들을 다르게 출력하도록 디스플레이(550)를 제어할 수 있다.
도 15에 도시하지는 않았지만, 일 실시예에서, 프로세서(570)는, 사용자에 대응하는 아바타를 이용하여, 사용자의 제스처 입력에 대응하는 정보 및 사용자의 음성 입력에 대응하는 정보(및/또는 사용자의 얼굴 표정을 나타내는 내용 및 건강 정보)를 출력할 수 있다. 예를 들어, 프로세서(570)는, 사용자에 대응하는 아바타가, 사용자의 제스처 입력에 대응하는 움직임을 수행하고, 사용자의 얼굴 표정에 대응하는 표정을 나타내도록(또는 아바타가 생각하고 있음을 나타내는 그래픽 오브젝트 또는 텍스트를 표시하도록), 디스플레이(550)를 제어할 수 있다. 프로세서(570)는, 아바타를 이용한 이미지(및 텍스트)가 상대방에게 정상적으로 보이도록, 아바타를 포함하는 외부 화면을 디스플레이(550)를 통하여 표시할 수 있다. 일 실시예에서, 프로세서(570)는, 아바타를 이용한 이미지(및 텍스트)를 포함하는 외부 화면을 디스플레이(550)의 제 1 영역을 통하여 표시하고, 아바타를 이용한 이미지(및 텍스트)를 포함하는 내부 화면을 디스플레이(550)의 제 2 영역을 통하여 표시할 수 있다. 프로세서(570)는, 사용자의 음성 입력에 대응하는 정보를 나타내는 오디오에 사용자에 대응하는 아바타의 음색을 적용하고, 아바타의 음색이 적용된 상기 오디오를 제 1 스피커(441)를 통하여 출력할 수 있다.
도 16은, 다양한 실시예들에 따른, 주변 환경에 기반하여, 정보를 제공하는 방법을 설명하는 흐름도(1600)이다.
도 16을 참조하면, 동작 1601에서, 일 실시예에서, 프로세서(570)는, 제스처 입력을 획득할 수 있다. 예를 들어, 프로세서(570)는, 제 1 카메라(421)를 통하여 획득된 이미지에 기반하여, 사용자의 제스처 입력 및/또는 상대방의 제스처 입력을 획득할 수 있다.
동작 1603에서, 일 실시예에서, 프로세서(570)는, 전자 장치(401)의 주변 환경에 대한 정보를 획득할 수 있다. 예를 들어, 프로세서(570)는, 주변 소리, 전자 장치(401) 외부의 밝기, 및/또는 전자 장치(401) 및 상대방 간 거리를 획득할 수 있다.
동작 1605에서, 일 실시예에서, 프로세서(570)는, 주변 환경에 대한 정보에 기반하여, 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 주변 환경에 대한 정보에 기반하여, 제스처 입력에 대응하는 정보를 하나 이상의 스피커들(예: 제 1 스피커(441), 제 2 스피커(442))을 통하여 출력할지 여부 및/또는 디스플레이(550)를 통하여 출력할지 여부를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 주변 소리에 기반하여, 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 주변 소리의 레벨이 지정된 레벨 이상인 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 텍스트를 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다. 프로세서(570)는, 주변 소리의 레벨이 지정된 레벨 미만인 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 전자 장치(401) 외부의 밝기에 기반하여, 제스처 입력에 대응하는 정보를 스피커(540)를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 전자 장치(401) 외부의 밝기가 지정된 밝기 이상인 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 것을 결정할 수 있다. 프로세서(570)는, 전자 장치(401) 외부의 밝기가 지정된 밝기 미만인 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 텍스트를 포함하는 내부 화면을 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 전자 장치(401) 및 상대방 간 거리에 기반하여, 제스처 입력에 대응하는 정보를 스피커를 통하여 출력할지 여부를 결정할 수 있다. 예를 들어, 프로세서(570)는, 전자 장치(401) 및 상대방 간 거리가 지정된 거리 이상인 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 것을 결정할 수 있다. 프로세서(570)는, 전자 장치(401) 및 상대방 간 거리가 지정된 거리 미만인 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 텍스트를 포함하는 내부 화면을 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다. 다른 예를 들어, 프로세서(570)는, 전자 장치(401) 및 상대방 간 거리가 멀어지는 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 오디오를 제 2 스피커(442)를 통하여 출력할 것을 결정할 수 있다. 프로세서(570)는, 전자 장치(401) 및 상대방 간 거리가 가까워지는 경우, 상대방의 제스처 입력에 대응하는 정보를 나타내는 텍스트를 포함하는 내부 화면을 디스플레이(550)를 통하여 출력할 것을 결정할 수 있다.
도 17은, 다양한 실시예들에 따른, 복수의 입력에 대응하는 정보를 제공하는 방법을 설명하는 흐름도(1700)이다.
도 17을 참조하면, 동작 1701에서, 일 실시예에서, 프로세서(570)는, 사용자 제스처 입력, 사용자의 얼굴 표정, 및/또는 사용자의 건강 정보(및 가상 키보드를 통한 사용자 입력)를 획득할 수 있다.
동작 1703에서, 일 실시예에서, 프로세서(570)는, 사용자 제스처 입력에 대응하는 정보, 사용자의 얼굴 표정에 대응하는 정보, 및/또는 사용자의 건강 정보에 대응하는 정보를 확인할 수 있다.
동작 1705에서, 일 실시예에서, 프로세서(570)는, 사용자 제스처 입력에 대응하는 정보, 사용자의 얼굴 표정에 대응하는 정보, 및/또는 사용자의 건강 정보에 대응하는 정보를 스피커(540)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 제스처 입력에 대응하는 정보, 사용자의 얼굴 표정에 대응하는 정보, 및/또는 사용자의 건강 정보에 대응하는 정보에 대하여, 서로 다른 음색들을 적용할 수 있다. 예를 들어, 프로세서(570)는, 사용자 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오에 대하여 여성의 음색을 적용하고, 사용자의 얼굴 표정에 대응하는 정보를 나타내는 제 2 오디오에 대하여 남성의 음색을 적용하고, 사용자의 건강 정보에 대응하는 정보에 대하여 기계 음색을 적용할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 제스처 입력에 대응하는 정보, 사용자의 얼굴 표정에 대응하는 정보, 및/또는 사용자의 건강 정보에 대응하는 정보에 대하여, 서로 다른 오디오의 레벨들(예: 음량들)을 적용할 수 있다.
일 실시예에서, 프로세서(570)는, 사용자 제스처 입력에 대응하는 정보, 사용자의 얼굴 표정에 대응하는 정보, 및/또는 사용자의 건강 정보에 대응하는 정보에 대하여, 순차적으로 출력될 순서를 결정할 수 있다.
일 실시예에서, 프로세서(570)는, 상기 결정된 음색들, 오디오의 레벨들, 및/또는 출력 순서에 기반하여, 사용자 제스처 입력에 대응하는 정보, 사용자의 얼굴 표정에 대응하는 정보, 및/또는 사용자의 건강 정보에 대응하는 정보를 제 1 스피커(441)를 통하여 출력할 수 있다. 예를 들어, 일 실시예에서, 프로세서(570)는, 상기 결정된 음색들, 오디오의 레벨들, 및/또는 출력 순서에 기반하여, 사용자 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오, 사용자의 얼굴 표정에 대응하는 정보를 나타내는 제 2 오디오, 및/또는 사용자의 건강 정보에 대응하는 정보를 나타내는 제 3 오디오를 믹싱하여, 제 1 스피커(441)를 통하여 출력할 수 있다.
일 실시예에서, 프로세서는, 사용자의 정보 및/또는 상대방의 정보에 기반하여, 입력에 대응하는 정보를 스피커를 통하여 출력할 지 여부를 결정할 수 있다. 예를 들어, 프로세서는, 사용자가 청각 장애인인 경우, 상대방의 음성을 디스플레이(451)를 통하여 텍스트로 표시할 수 있다. 예를 들어, 프로세서는, 상대방으로부터 수어를 나타내는 제스처가 입력되고 사용자가 수어를 모르는 경우, 상대방으로부터 입력되는 수어를 나타내는 제스처를 음성 및/또는 텍스트로 출력할 수 있다. 예를 들어, 프로세서는, 상대방이 청각 장애인(예: 수어를 아는 청각 장애인)이고 사용자가 모르는 경우, 사용자의 음성이 입력되면, 입력된 사용자 음성을 디스플레이(451)를 통하여 텍스트로 표시할 수 있다.
본 개시의 다양한 실시예들에 따른 전자 장치(401)에서 정보를 제공하는 방법은, 상기 전자 장치(401)의 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 입력을 획득하는 동작, 상기 입력의 종류를 확인하는 동작, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하는 동작, 및 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력되도록, 상기 하나 이상의 스피커들(예: 스피커(540))을 제어하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 방법은 상기 획득된 입력을 텍스트로 변환하는 동작을 더 포함할 수 있다.
다양한 실시예에서, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하는 동작은, 사용자 입력 또는 상기 입력의 종류 중 적어도 하나에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작은, 상기 입력의 종류가 상기 전자 장치(401)의 사용자의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 1 스피커(441)를 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하는 동작 및 상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 2 스피커(442)를 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하는 동작은, 상기 입력에 대응하는 정보를 나타내는 오디오에 적용될 음색을 결정하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 입력을 획득하는 동작은, 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 복수의 입력을 획득하는 동작을 포함하고, 상기 입력에 대응하는 정보를 나타내는 오디오에 적용될 음색을 결정하는 동작은, 상기 복수의 입력의 종류에 기반하여, 상기 복수의 입력에 대응하는 정보를 나타내고 동시에 출력될 오디오들에 대하여 적용될 서로 다른 음색들을 결정하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 복수의 입력을 획득하는 동작은, 상기 하나 이상의 입력 모듈들(예: 마이크(510) 및 카메라(520))을 통하여 상기 전자 장치의 사용자의 제스처 입력 및 상기 사용자의 음성 입력을 획득하는 동작을 포함하고, 상기 복수의 입력의 종류에 기반하여, 상기 복수의 입력에 대응하는 정보를 나타내고 동시에 출력될 오디오들에 대하여 적용될 서로 다른 음색들을 결정하는 동작은, 상기 사용자의 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오에 대하여 적용될 제 1 음색을 결정하고, 상기 사용자의 음성 입력에 대응하는 정보를 나타내고 상기 제 1 오디오와 동시에 출력될 제 2 오디오에 대하여 적용될 제 2 음색을 결정하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작은, 상기 입력의 종류가 상기 전자 장치(401)의 사용자의 제스처 및/또는 음성인 경우, 상기 디스플레이(예: 디스플레이(550))의 외부 화면을 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 표시할 것을 결정하는 동작 및 상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 디스플레이(예: 디스플레이(550))의 내부 화면을 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하는 동작을 포함할 수 있다.
다양한 실시예에서, 상기 방법은, 상기 전자 장치(410)가 외부 전자 장치와 통화를 수행하는 동안 상기 전자 장치(410)의 사용자의 제스처가 입력되는 경우, 상기 전자 장치(410)의 통신 모듈(예: 통신 모듈(530))을 통하여, 상기 사용자의 제스처에 대응하는 정보를 상기 외부 전자 장치로 전송하는 동작을 더 포함할 수 있다.
다양한 실시예에서, 상기 방법은, 상기 전자 장치(401)의 주변 환경에 대한 정보를 획득하는 동작 및 상기 전자 장치(401)의 주변 환경에 대한 정보에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들(예: 스피커(540))을 통하여 출력할지 여부를 결정하는 동작을 더 포함할 수 있다.
다양한 실시예에서, 상기 전자 장치(401)는 AR 글래스를 포함하고, 상기 입력은, 상기 전자 장치의 사용자의 제스처, 상기 전자 장치(401)에 인접한 위치에 있는 상대방의 제스처, 상기 사용자의 음성, 상기 상대방의 음성, 상기 사용자의 얼굴 표정, 또는 상기 사용자의 건강 정보 중 적어도 하나를 포함할 수 있다.
또한, 상술한 본 개시의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 또는 하드 디스크), 광학적 판독 매체(예를 들면, CD-ROM, 또는 DVD)와 같은 저장매체를 포함할 수 있다.
Claims (15)
- 전자 장치에 있어서,하나 이상의 입력 모듈들;하나 이상의 스피커들;디스플레이; 및상기 하나 이상의 입력 모듈들, 상기 하나 이상의 스피커들, 및 상기 디스플레이와 작동적으로 연결된 적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서는,상기 하나 이상의 입력 모듈들을 통하여 입력을 획득하고,상기 입력의 종류를 확인하고,상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하고, 및상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들을 통하여 출력되도록, 상기 하나 이상의 스피커들을 제어하도록 구성된 전자 장치.
- 제 1 항에 있어서,상기 적어도 하나의 프로세서는,상기 획득된 입력을 텍스트로 변환하도록 더 구성된 전자 장치.
- 제 1 항에 있어서,상기 적어도 하나의 프로세서는,사용자 입력 또는 상기 입력의 종류 중 적어도 하나에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하도록 구성된 전자 장치.
- 제 1 항에 있어서,상기 적어도 하나의 프로세서는,상기 입력의 종류가 상기 전자 장치의 사용자의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 1 스피커를 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하고, 및상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 2 스피커를 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하도록 구성된 전자 장치.
- 제 1 항에 있어서,상기 적어도 하나의 프로세서는,상기 입력에 대응하는 정보를 나타내는 오디오에 적용될 음색을 결정하도록 구성된 전자 장치.
- 제 5 항에 있어서,상기 적어도 하나의 프로세서는,상기 하나 이상의 입력 모듈들을 통하여 복수의 입력을 획득하고, 및상기 복수의 입력의 종류에 기반하여, 상기 복수의 입력에 대응하는 정보를 나타내고 동시에 출력될 오디오들에 대하여 적용될 서로 다른 음색들을 결정하도록 구성된 전자 장치.
- 제 6 항에 있어서,상기 적어도 하나의 프로세서는,상기 하나 이상의 입력 모듈들을 통하여 상기 전자 장치의 사용자의 제스처 입력 및 상기 사용자의 음성 입력을 획득하고, 및상기 사용자의 제스처 입력에 대응하는 정보를 나타내는 제 1 오디오에 대하여 적용될 제 1 음색을 결정하고, 상기 사용자의 음성 입력에 대응하는 정보를 나타내고 상기 제 1 오디오와 동시에 출력될 제 2 오디오에 대하여 적용될 제 2 음색을 결정하도록 구성된 전자 장치.
- 제 1 항에 있어서,상기 적어도 하나의 프로세서는,상기 입력의 종류가 상기 전자 장치의 사용자의 제스처 및/또는 음성인 경우, 상기 디스플레이의 외부 화면을 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 표시할 것을 결정하고, 및상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 디스플레이의 내부 화면을 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하도록 구성된 전자 장치.
- 제 1 항에 있어서,통신 모듈을 더 포함하고,상기 적어도 하나의 프로세서는,상기 전자 장치가 외부 전자 장치와 통화를 수행하는 동안 상기 전자 장치의 사용자의 제스처가 입력되는 경우, 상기 통신 모듈을 통하여, 상기 사용자의 제스처에 대응하는 정보를 상기 외부 전자 장치로 전송하도록 더 구성된 전자 장치.
- 제 1 항에 있어서,상기 적어도 하나의 프로세서는,상기 전자 장치의 주변 환경에 대한 정보를 획득하고, 및상기 전자 장치의 주변 환경에 대한 정보에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하도록 더 구성된 전자 장치.
- 전자 장치에서 정보를 제공하는 방법에 있어서,상기 전자 장치의 하나 이상의 입력 모듈들을 통하여 입력을 획득하는 동작;상기 입력의 종류를 확인하는 동작;상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작; 및상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할 것으로 결정함에 기반하여, 상기 입력의 종류에 기반하여, 상기 입력에 대응하는 정보가 상기 하나 이상의 스피커들을 통하여 출력되도록, 상기 하나 이상의 스피커들을 제어하는 동작을 포함하는 방법.
- 제 11 항에 있어서,상기 획득된 입력을 텍스트로 변환하는 동작을 더 포함하는 방법.
- 제 11 항에 있어서,상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작은,사용자 입력 또는 상기 입력의 종류 중 적어도 하나에 기반하여, 상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작을 포함하는 방법.
- 제 11 항에 있어서,상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작은,상기 입력의 종류가 상기 전자 장치의 사용자의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 1 스피커를 통하여 상기 사용자의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하는 동작; 및상기 입력의 종류가 상대방의 제스처 및/또는 음성인 경우, 상기 하나 이상의 스피커들 중 제 2 스피커를 통하여 상기 상대방의 제스처 및/또는 음성에 대응하는 정보를 출력할 것으로 결정하는 동작을 포함하는 방법.
- 제 11 항에 있어서,상기 입력에 대응하는 정보를 상기 하나 이상의 스피커들을 통하여 출력할지 여부를 결정하는 동작은,상기 입력에 대응하는 정보를 나타내는 오디오에 적용될 음색을 결정하는 동작을 포함하는 방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20220040632 | 2022-03-31 | ||
KR10-2022-0040632 | 2022-03-31 | ||
KR10-2022-0094851 | 2022-07-29 | ||
KR1020220094851A KR20230141395A (ko) | 2022-03-31 | 2022-07-29 | 정보를 제공하는 방법 및 이를 지원하는 전자 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023191314A1 true WO2023191314A1 (ko) | 2023-10-05 |
Family
ID=88203106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2023/002528 WO2023191314A1 (ko) | 2022-03-31 | 2023-02-22 | 정보를 제공하는 방법 및 이를 지원하는 전자 장치 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023191314A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150082032A (ko) * | 2014-01-07 | 2015-07-15 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
US20180189568A1 (en) * | 2016-12-29 | 2018-07-05 | Magic Leap, Inc. | Automatic control of wearable display device based on external conditions |
KR20210086665A (ko) * | 2018-10-31 | 2021-07-08 | 스냅 인코포레이티드 | 다수의 스피커들 및 마이크로폰들이 있는 웨어러블 디바이스에서 비-에코 듀플렉스 대화들을 위한 교번 샘플링 방법 |
KR20210130486A (ko) * | 2020-04-22 | 2021-11-01 | 연세대학교 산학협력단 | 사운드의 병행 출력을 통한 사운드 제어 시스템 및 이를 포함하는 통합 제어 시스템 |
KR102324074B1 (ko) * | 2015-04-08 | 2021-11-09 | 삼성전자주식회사 | 사운드 출력 제어 방법 및 전자 장치 |
-
2023
- 2023-02-22 WO PCT/KR2023/002528 patent/WO2023191314A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150082032A (ko) * | 2014-01-07 | 2015-07-15 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
KR102324074B1 (ko) * | 2015-04-08 | 2021-11-09 | 삼성전자주식회사 | 사운드 출력 제어 방법 및 전자 장치 |
US20180189568A1 (en) * | 2016-12-29 | 2018-07-05 | Magic Leap, Inc. | Automatic control of wearable display device based on external conditions |
KR20210086665A (ko) * | 2018-10-31 | 2021-07-08 | 스냅 인코포레이티드 | 다수의 스피커들 및 마이크로폰들이 있는 웨어러블 디바이스에서 비-에코 듀플렉스 대화들을 위한 교번 샘플링 방법 |
KR20210130486A (ko) * | 2020-04-22 | 2021-11-01 | 연세대학교 산학협력단 | 사운드의 병행 출력을 통한 사운드 제어 시스템 및 이를 포함하는 통합 제어 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021162378A1 (ko) | 마이크 모듈을 포함하는 전자 장치 | |
WO2017171137A1 (ko) | 보청장치, 휴대장치 및 그 제어방법 | |
WO2022010157A1 (ko) | 인공지능 가상 비서 서비스에서의 화면 제공 방법 및 이를 지원하는 사용자 단말 장치 및 서버 | |
EP3228101A1 (en) | Wearable device and method of transmitting message from the same | |
WO2022098204A1 (ko) | 가상현실 서비스를 제공하는 전자 장치 및 방법 | |
WO2022092517A1 (ko) | 디스플레이를 포함하는 웨어러블 전자 장치, 그 디스플레이를 제어하는 방법, 및 그 웨어러블 전자 장치 및 케이스를 포함하는 시스템 | |
WO2023017986A1 (ko) | 영상 데이터 및 오디오 데이터 출력 방법 및 전자 시스템 | |
WO2023191314A1 (ko) | 정보를 제공하는 방법 및 이를 지원하는 전자 장치 | |
WO2022010187A1 (ko) | 전자 장치 및 전자 장치의 인증 동작 수행 방법 | |
WO2022154440A1 (ko) | 오디오 데이터를 처리하는 전자 장치 및 그 동작 방법 | |
WO2022124561A1 (ko) | 복수의 센서를 이용한 전자 장치의 제어 방법 및 그 전자 장치 | |
WO2024043550A1 (ko) | 원격 제어 장치를 이용하여 외부 전자 장치를 제어하기 위한 방법 및 이를 지원하는 전자 장치 | |
WO2024029699A1 (ko) | 가상 오브젝트를 표시하는 웨어러블 전자 장치 및 이의 제어 방법 | |
WO2024091021A1 (ko) | 전자 장치 및 이의 동작 방법 | |
WO2024122946A1 (ko) | 가상 객체를 표시하는 전자 장치 및 이의 동작 방법 | |
WO2023101194A1 (ko) | 운송 수단 내 증강 현실 콘텐츠 제공 방법, 이를 수행하는 웨어러블 장치 및 전자 장치 | |
WO2024071681A1 (ko) | 이미지를 제공하는 방법 및 이를 지원하는 웨어러블 전자 장치 | |
WO2024039073A1 (ko) | 이미지에 효과를 적용하는 전자 장치 및 그 제어 방법 | |
WO2024072009A1 (ko) | 이미지 내의 객체를 식별하는 증강 현실 장치 및 방법 | |
WO2024063302A1 (ko) | 개체에 다른 개체와의 인터랙션을 적용하는 가상 공간을 제공하기 위한 방법 및 장치 | |
WO2024058436A1 (ko) | 영상을 표시하는 전자 장치 및 이의 제어 방법 | |
WO2023038225A1 (ko) | 적어도 하나의 외부 장치를 제어하는 전자 장치 및 이의 동작 방법 | |
WO2024076058A1 (ko) | 센서를 포함하는 웨어러블 전자 장치 및 이의 동작 방법 | |
WO2024106796A1 (ko) | 오디오 설정을 제어하는 방법 및 이를 지원하는 웨어러블 전자 장치 | |
WO2024072136A1 (ko) | 오디오를 처리하는 전자 장치 및 전자 장치의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23781173 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023781173 Country of ref document: EP |
|
ENP | Entry into the national phase |
Ref document number: 2023781173 Country of ref document: EP Effective date: 20240911 |