WO2020204357A1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
WO2020204357A1
WO2020204357A1 PCT/KR2020/002676 KR2020002676W WO2020204357A1 WO 2020204357 A1 WO2020204357 A1 WO 2020204357A1 KR 2020002676 W KR2020002676 W KR 2020002676W WO 2020204357 A1 WO2020204357 A1 WO 2020204357A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
voice
indicator
electronic device
input
Prior art date
Application number
PCT/KR2020/002676
Other languages
English (en)
French (fr)
Inventor
박준용
마지연
신동헌
이영아
김대웅
손성도
심다혜
육형민
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2020204357A1 publication Critical patent/WO2020204357A1/ko
Priority to US17/492,267 priority Critical patent/US11869512B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Definitions

  • the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device and a control method for registering an indicator corresponding to a user by analyzing a user's voice, and displaying an indicator corresponding to the voice-recognized user. will be.
  • Speech recognition technology which is the technical background of the input method using speech recognition, is widely used not only in various industrial fields, but also in daily life, and research and demand for speech recognition technology are increasing in Braille.
  • the speech recognition technology has a disadvantage in that it can be greatly affected by ambient noise.
  • the electronic device since the voice uttered by the user is not always the same and may change little by little, the electronic device must detect a difference between the previously registered voice and the changed voice of the registered user.
  • the electronic device when the user's voice is input to the electronic device, the electronic device analyzes the user's voice and transmits the analysis result and feedback to the user. Accordingly, the user can use the speech recognition technology more efficiently by utilizing the speech analysis result and feedback, such as re-registering the speech in the electronic device based on his/her speech analysis result.
  • the display is not included, so that the user has to receive the analysis result and feedback of the input voice as a notification sound.
  • the present disclosure was devised to solve the above-described problem, and an object of the present disclosure is to register a user's indicator based on the input user's voice by adding a display to an electronic device that recognizes the voice, and It is to provide an electronic device that displays an indicator corresponding to a recognized user and a control method thereof.
  • the display is compared with a plurality of previously registered voices to recognize the user who uttered the input user voice, and to display an indicator corresponding to the recognized user. Can be controlled.
  • the processor controls the display to display a UI requesting utterance to the user, and the user through the voice input unit while the UI requesting utterance is displayed.
  • the user voice is analyzed to obtain an indicator corresponding to the user voice, information on the user and the acquired indicator are registered, and at least one of an external server or the memory Can be saved on.
  • the UI may include a message requesting a user utterance for a text for switching to a voice recognition mode.
  • the processor may determine at least one of a color, a size, a shape, a position, a transparency, and a movement of the indicator by analyzing a pitch, a loudness, and a quality of the user's voice.
  • the sound level and intensity may determine at least one of a size, shape, position, and movement of the indicator, and the sound quality may determine at least one of a color and transparency of the indicator.
  • the processor recognizes the user who uttered the input voice and utters the input voice.
  • the voice recognition mode can be switched.
  • the indicator may correspond to the user and may be an indicator indicating that a current mode of the electronic device is a voice recognition mode.
  • the processor may change the indicator to correspond to an analysis result of the input user voice.
  • the processor may change at least one of color, size, shape, position, transparency, and movement of a pre-registered indicator by analyzing the sound level, intensity, and sound quality of the user's voice input during the voice recognition mode.
  • the processor may control the display to display a message requesting a command to the user at the same time as the registered indicator.
  • the electronic device control method for achieving the above object, when a user's voice is input, the user who uttered the input user voice is recognized by comparing it with a plurality of previously registered voices. Step to do; And displaying an indicator corresponding to the recognized user.
  • the registering of the indicator includes displaying a UI requesting utterance to the user when an event for registering the indicator occurs, and registering the indicator of the user while the UI requesting utterance is displayed.
  • a voice for registration is input, analyzing a voice for registering the indicator of the user to obtain an indicator corresponding to the user voice; And registering the information on the user and the acquired indicator, and storing the information in at least one of an external server or a memory.
  • the UI may include a message requesting a user utterance for a text for switching to a voice recognition mode.
  • the obtaining may include determining at least one of color, size, shape, position, transparency, and movement of the indicator by analyzing the pitch, loudness, and quality of the user's voice.
  • the sound level and intensity may determine at least one of a size, shape position, and movement of the indicator, and the sound quality may determine at least one of a color and transparency of the indicator.
  • the recognizing of the user may include recognizing a user who uttered the input voice when the user's voice including text for switching to the voice recognition mode is input through the voice input unit; And switching to the voice recognition mode when the user who uttered the input voice is recognized.
  • the indicator may correspond to the user and may be an indicator indicating that a current mode of the electronic device is a voice recognition mode.
  • the changing may include changing at least one of color, size, shape, position, transparency, and movement of a pre-registered indicator by analyzing the sound level, intensity, and sound quality of the user's voice input during the voice recognition mode. can do.
  • the controlling of the display may include controlling the display to display a message requesting a command to the user at the same time as the registered indicator.
  • the electronic device analyzes the input voice to recognize the uttered user, and displays a pre-registered indicator corresponding to the recognized user, so that the user visually monitors the voice input state. Can be provided.
  • FIG. 1 is a diagram illustrating an electronic device displaying an indicator according to an embodiment of the present disclosure
  • FIG. 2 is a block diagram schematically illustrating a configuration of an electronic device according to an embodiment of the present disclosure
  • FIG. 3 is a block diagram showing in detail the configuration of an electronic device according to an embodiment of the present disclosure.
  • 4A is a block diagram illustrating a configuration in which an electronic device analyzes a user's voice and acquires an indicator based on an analysis result, according to an embodiment of the present disclosure
  • 4B is a block diagram illustrating a configuration for an electronic device to analyze a user's voice according to an embodiment of the present disclosure
  • FIG. 5 is a block diagram illustrating a process of acquiring an indicator based on a user voice by an electronic device according to an embodiment of the present disclosure
  • FIG. 6 is a diagram illustrating a process of determining an indicator by an electronic device according to an embodiment of the present disclosure
  • FIG. 7A is a diagram for explaining a UI explaining that an indicator can be registered to a user according to an embodiment of the present disclosure
  • FIG. 7B is a diagram illustrating a UI for requesting a user to speak for registering an indicator according to an embodiment of the present disclosure
  • FIG. 7C is a diagram illustrating a UI for requesting a user to speak for registering an indicator according to an embodiment of the present disclosure
  • 7D is a diagram for explaining a UI that requests a user to speak for registering an indicator according to an embodiment of the present disclosure
  • 7E is a diagram illustrating a UI informing a user that an indicator is registered by an electronic device according to an embodiment of the present disclosure
  • FIG. 8A is a diagram illustrating a process of recognizing a user's voice by an electronic device according to an embodiment of the present disclosure
  • FIG. 8B is a diagram illustrating a process of converting, by an electronic device, to a voice recognition mode by recognizing a user's voice, according to an embodiment of the present disclosure
  • 8C is a diagram for explaining a screen displayed when an electronic device fails to recognize a user's voice according to an embodiment of the present disclosure
  • 9A is a diagram illustrating a process in which an electronic device receives a user command in a voice recognition mode according to an embodiment of the present disclosure
  • 9B is a diagram for explaining a process in which an electronic device performs a command according to a user command in a voice recognition mode, according to an embodiment of the present disclosure
  • 9C is a diagram illustrating a process of changing an indicator by analyzing a user's voice in a voice recognition mode by an electronic device according to an embodiment of the present disclosure
  • FIG. 10 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • each step is to be understood, without limitation, unless the preceding step must be performed logically and temporally prior to the subsequent step. In other words, except for the above exceptional cases, even if the process described as a subsequent step is performed before the process described as a preceding step, the nature of the disclosure is not affected, and the scope of rights must also be defined regardless of the order of the steps.
  • FIG. 1 is a diagram illustrating an electronic device 100 displaying an indicator according to an embodiment of the present disclosure. As illustrated in FIG. 1, the electronic device 100 may determine an indicator 10 including a plurality of layers 10-1, 10-2 and 10-3 based on an input user's voice.
  • the electronic device 100 may determine and register an indicator corresponding to the user voice based on the user voice input through the voice input unit 110 and store it in at least one of the memory 120 or an external server. Specifically, when an event for registering the indicator 10 occurs, the electronic device 100 may display a UI requesting a speech to the user. When a user voice is input while a UI requesting the user to speak is displayed, the electronic device 100 may analyze the user voice and determine the indicator 10 corresponding to the user voice. Specifically, the electronic device 100 analyzes the user's voice input through the voice input unit 110, and the indicator 10 according to the analyzed characteristics of the user's voice (for example, the sound level, intensity, and quality of the voice). ) Can be determined in various ways.
  • the electronic device 100 may determine the number of layers and various characteristics (eg, color, size, shape, position, transparency, and movement) constituting the indicator by analyzing the characteristics of the received user's voice. have. Accordingly, the plurality of layers 10-1, 10-2 and 10-3 constituting the indicator 10 illustrated in FIG. 1 are only an exemplary embodiment and may be variously configured. Further, the electronic device 100 may register the determined indicator 10 and store the user information and the indicator 10 corresponding to the user in at least one of the external server or the memory 120.
  • various characteristics eg, color, size, shape, position, transparency, and movement
  • the electronic device 100 may recognize the user who uttered the input voice. Specifically, when a user's voice including text for conversion to the voice recognition mode is input through the voice input unit 110, the electronic device 100 compares a plurality of previously registered voices with the input voice and utters User can be recognized. In addition, when the user who uttered the input voice is recognized, the electronic device 100 may switch the mode of the electronic device 100 to the voice recognition mode. Meanwhile, when the mode of the electronic device 100 is a voice recognition mode, the electronic device 100 may detect the indicator 10 corresponding to the user's voice, user information, and the strength of the user's voice. It is possible to display a plurality of objects 810 indicating whether or not the strength is sufficient.
  • the electronic device 100 may control the display 130 to display a registered indicator 10 corresponding to the recognized user.
  • the electronic device 100 may display the indicator 10 as illustrated in FIG. 1 to indicate that the mode of the electronic device 100 is a voice recognition mode.
  • the electronic device 100 may change the indicator 10 to correspond to an analysis result of the input user voice. For example, during the voice recognition mode, when there is a difference between the input user's voice and the pre-registered user's voice, the electronic device 100 analyzes the difference between the input user's voice and the pre-registered user's voice and displays an indicator. The characteristics of the plurality of layers 10-1, 10-2, and 10-3 of (10) can be changed.
  • the electronic device 100 may display a message requesting a command from the user at the same time as the indicator 10 corresponding to the user's voice. That is, the electronic device 100 may control the display 130 to display a text corresponding to a voice uttered by the user on the electronic device 100 in order to check a voice command uttered by the user. Accordingly, the user can give various commands to the electronic device 100 by voice in the voice recognition mode state.
  • the electronic device 100 may include a voice input unit 110, a memory 120, a display 130, and a processor 140.
  • the electronic device 100 may include a voice input unit 110, a memory 120, a display 130, and a processor 140.
  • a voice input unit 110 may include a voice input unit 110, a memory 120, a display 130, and a processor 140.
  • the electronic device 100 may include a voice input unit 110, a memory 120, a display 130, and a processor 140.
  • it is not limited to the above-described configuration, and of course, some configurations may be added or omitted depending on the type of electronic device.
  • the voice input unit 110 may receive a user's voice.
  • the voice input unit 110 may receive a user utterance including text for switching to a voice recognition mode, and may receive a voice containing a user's command.
  • the voice input unit 110 may be provided inside the electronic device 100, but may be provided outside and electrically connected to the electronic device 100 or communicated with the communication unit 150.
  • the memory 120 may store an instruction or data related to at least one other component of the electronic device 100.
  • the memory 120 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), a solid state drive (SSD), or the like.
  • the memory 120 is accessed by the processor 140, and data read/write/edit/delete/update by the processor 130 may be performed.
  • the term memory refers to a memory 120, a ROM (not shown) in the processor 140, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, micro SD Card, memory stick).
  • the memory 120 may store programs and data for configuring various screens to be displayed on the display area of the display 130.
  • the memory 120 may store an indicator and user information corresponding to the user's voice input from the voice input unit 110. Specifically, the memory 120 may store an indicator and user information obtained by analyzing a voice for registering the user's indicator input by the electronic device 100.
  • the user information stored in the memory 120 may include a user's voice, voice characteristics (eg, voice strength, sound level and sound quality), a user name, age, and gender, but this is only an example.
  • the display 130 may display various types of information under the control of the processor 140.
  • the display 130 may display a UI including a message requesting a user utterance for text for switching to the voice recognition mode.
  • the display 130 may display a registered indicator corresponding to the recognized user and a screen indicating a voice recognition mode switched according to the user recognition.
  • the display 130 may be implemented as a touch screen together with a touch panel. However, it is not limited to the above-described implementation, and the display 130 may be implemented differently according to the type of electronic device.
  • the processor 140 may be electrically connected to the memory 120 and the display 130 to control overall operations and functions of the electronic device 100. In particular, when a user's voice is input through the voice input unit 110, the processor 140 can control the display 130 to recognize the user who uttered the input voice and display an indicator corresponding to the recognized user. have.
  • the processor 140 may control the display 130 to display a UI that requests a user to speak.
  • the processor 140 analyzes the user's voice to obtain an indicator corresponding to the user's voice, Information on a user and the acquired indicator may be registered and stored in an external server or memory 120.
  • the UI requesting speech may include a message requesting a user speech for text for switching to a speech recognition mode.
  • the processor 140 may determine the characteristics of a plurality of layers constituting the indicator by analyzing the characteristics of the user's voice. Specifically, the processor 140 may determine the color, size, shape, position, transparency, and movement of a plurality of layers constituting the indicator by analyzing the pitch, loudness, and quality of the user's voice. have. In one embodiment, the processor 140 may determine at least one of a size, shape position, and movement of a layer constituting an indicator by analyzing the sound level and intensity of a user's voice, and the color and transparency of the layer constituting the indicator by analyzing sound quality. At least one of them can be determined.
  • the processor 140 recognizes the user who uttered the input voice and the user who uttered the input voice. When is recognized, you can switch to the voice recognition mode. Specifically, the processor 140 may analyze the input user's voice and compare the analysis result value with the analysis result of the previously registered user voice to determine whether the uttered user is a pre-registered user.
  • the processor 140 may recognize the voice uttered by the user and change the indicator to correspond to the input user's voice analysis result. Specifically, the processor 140 analyzes the sound level, intensity, and sound quality of the user's voice input through the voice input unit 110 during the voice recognition mode, and determines the color, size, shape, and color of a plurality of layers constituting a pre-registered indicator. At least one of position, transparency, and movement can be changed.
  • the processor 140 may control the display to display a message requesting a command from the user at the same time as the registered indicator.
  • the processor 140 When the user inputs a speech including a command to the electronic device 100 through the voice input unit 110, the processor 140 generates a text corresponding to the speech uttered by the user in order to check the voice command uttered by the user.
  • the display 130 may be controlled to be displayed on the electronic device 100.
  • the processor 140 may perform a function corresponding to a user command.
  • the electronic device 100 includes a voice input unit 110, a memory 120, a display 130, a processor 140, a communication unit 150, an input unit 160, and a speaker 170.
  • the voice input unit 110, the memory 120, the display 130, and the processor 140 shown in FIG. 3 have been described in FIG. 2, redundant descriptions will be omitted.
  • the communication unit 150 may communicate with an external device.
  • the communication connection of the communication unit 150 with an external device may include communicating through a third device (eg, a repeater, a hub, an access point, a server, or a gateway).
  • a third device eg, a repeater, a hub, an access point, a server, or a gateway.
  • the communication unit 150 may connect communication with an external device such as a remote control of the electronic device 100, a smart phone, and an AI speaker to receive a user's voice input into a microphone of the external device.
  • an external device such as a remote control of the electronic device 100, a smart phone, and an AI speaker to receive a user's voice input into a microphone of the external device.
  • the communication unit 150 may receive a signal containing the user's voice from the remote control.
  • the communication unit 150 may include various communication modules to perform communication with an external device.
  • the communication unit 150 may include a wireless communication module, for example, LTE, LTE-A (LTE Advance), CDMA (code division multiple access), WCDMA (wideband CDMA), UMTS (universal mobile telecommunications). system), WiBro (Wireless Broadband), or GSM (Global System for Mobile Communications), or the like.
  • the wireless communication module is, for example, WiFi (wireless fidelity), Bluetooth, Bluetooth low power (BLE), Zigbee, NFC (near field communication), magnetic secure transmission, radio frequency It may include at least one of (RF) or a body area network (BAN).
  • the communication unit 150 may include a wired communication module, for example, a universal serial bus (USB), a high definition multimedia interface (HDMI), a recommended standard232 (RS-232), a power line communication, or a plain old (POTS) telephone service) and the like.
  • the network in which wireless communication or wired communication is performed may include at least one of a telecommunication network, for example, a computer network (eg, LAN or WAN), the Internet, or a telephone network.
  • the input unit 160 may receive a user input for controlling the electronic device 100.
  • the input unit 160 may include a touch panel for receiving a user touch using a user's hand or a stylus pen, and a button for receiving a user manipulation.
  • the input unit 160 may be implemented as another input device (eg, a remote control, a motion input unit, a virtual keyboard, and a mouse).
  • a user may input an event for registering an indicator by pressing a voice recognition button on a remote control.
  • the user can change the image or text constituting the speech recognition mode by using the virtual keyboard.
  • the speaker 170 is a component that outputs not only various audio data on which various processing tasks such as decoding, amplification, and noise filtering have been performed by the audio processing unit, but also various notification sounds or voice messages. Meanwhile, the configuration for outputting audio may be implemented with the speaker 170, but this is only an embodiment and may be implemented as an output terminal capable of outputting audio data.
  • the processor 140 is a central processing unit (CPU) that processes digital signals, a micro controller unit (MCU), a micro processing unit (MPU), a controller, and an application processor (AP). , Or one or more of a communication processor (CP) and an ARM processor, or may be defined with a corresponding term. Further, the processor 140 may be implemented as a system on chip (SoC) or large scale integration (LSI) in which a processing algorithm is embedded, or may be implemented in the form of a field programmable gate array (FPGA). The processor 140 may perform various functions by executing computer executable instructions stored in the memory 120. In addition, the processor 140 may include at least one of a graphics-processing unit (GPU), a neural processing unit (NPU), and a visual processing unit (VPU), which are separate AI-only processors, in order to perform an artificial intelligence function. have.
  • GPU graphics-processing unit
  • NPU neural processing unit
  • VPU visual processing unit
  • FIG. 4A and 4B are block diagrams illustrating a configuration in which an electronic device analyzes a voice and acquires an indicator based on a result of the analysis, according to an embodiment of the present disclosure.
  • the electronic device 100 analyzes the user's voice input through the voice input unit 110, recognizes the uttered user, and detects a change in the uttered voice. ) Can be included.
  • the speech analysis unit 410 includes a pitch/loudness analysis module 430, a quality analysis module 440, a speaker determination module 450, and a change detection module ( 460) can be used to analyze the voice.
  • the sound/intensity analysis module 430 may analyze the sound level and intensity of a user's voice input through the voice input unit 110.
  • Sound level means the pitch of the sound and is determined by the frequency per second.
  • the average male voice level is 118 Hz and the average female voice level is 211 Hz.
  • the electronic device 100 may analyze the voice level to identify the sex of the person who spoke.
  • Intensity means the intensity of sound and is determined by the width of voice vibration.
  • the intensity of the input user's voice may vary according to the state of the voice input unit 110 or the distance the user speaks.
  • the sound quality analysis module 440 may analyze the sound quality of a user's voice input through the voice input unit 110. That is, the sound quality analysis module 440 may analyze a frequency fluctuation rate (Jitter), amplitude fluctuation (Shimmer), and noise of a voice.
  • the frequency fluctuation rate means how much the pitch of the voice has changed in the analysis section.
  • the amplitude fluctuation refers to how much the intensity of the speech has changed in the analysis section.
  • Noise refers to the degree of irregularity in vocal cord vibration and breathing, and an irregular state, that is, a state with large noise, refers to a state in which both the frequency fluctuation rate and the amplitude fluctuation rate are increased.
  • the sound quality analysis module 440 may determine that the uttered user's emotion change is large. That is, the sound quality analysis module 440 may analyze the sound quality and extract the user's emotional change.
  • the speaker determination module 450 may determine whether the spoken user's voice is the pre-registered user's voice based on the user's voice analysis result. That is, when a user's voice is input through the voice input unit 110, the speaker determination module 450 may compare the spoken user's voice with a plurality of previously registered voices to determine that the voice of the registered user is. For example, the speaker determination module 450 analyzes the characteristics of the user's voice input through the voice input unit 110 (for example, the tone, intensity, and quality of the voice), and Matches the characteristics.
  • the speaker determination module 450 determines that the input voice was uttered by the pre-registered user. do. Accordingly, the speaker determination module 450 may recognize a user who has spoken.
  • the change detection module 460 may detect that the analysis result of the user's voice input through the voice input unit 110 is different from the existing analysis result. That is, since the voice uttered by the user is not always the same and may change little by little, the change detection module 460 can detect a difference in the user's voice while in the voice recognition mode.
  • the graphic processing unit 420 illustrated in FIG. 4A may determine a component of the indicator based on a result of analysis through the voice analysis unit 410.
  • the graphic processing unit 420 may analyze the sound level, intensity, and sound quality of the user's voice to determine the number of layers constituting the indicator and the color, size, shape, position, transparency, and movement of the plurality of layers.
  • the graphic processing unit 420 may determine the size, shape, position and movement of the indicator by analyzing sound level and intensity, and may determine the color and transparency of the indicator by analyzing sound quality.
  • the graphic processor 420 may increase the size of a layer of the indicator based on an analysis result indicating that the sound level and intensity values of the user's voice are large.
  • the graphic processor 420 may determine the color of the indicator as red or dark as the result value corresponding to the analysis of the sound quality of the user's voice increases.
  • the graphic processing unit 420 may determine a color, size, shape, position, transparency, and movement of the indicator based on various voice analysis results.
  • FIG. 5 is a block diagram illustrating a process of acquiring an indicator based on a user voice by an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may receive a voice for registering a user's indicator from a user through the voice input unit 110 (510).
  • the electronic device 100 may analyze the sound level and intensity of the input user voice (520 ).
  • the electronic device 100 may adjust the size, shape, position, and movement of the indicator in response to values of the sound level and intensity of the analyzed user voice (530 ).
  • the electronic device 100 may increase the size of the indicator as the sound level and intensity analysis values of the input user's voice increase.
  • the electronic device 100 may angle the shape of the indicator and position the indicator in the upper region of the display 130.
  • the electronic device 100 may increase the moving speed of the indicator as the sound level and intensity analysis value of the input user's voice increases.
  • the electronic device 100 may variously determine the indicator according to a result of analyzing the sound level and intensity of the user's voice.
  • the electronic device 100 may analyze the sound quality of the input user's voice (540 ).
  • the electronic device 100 may adjust the color and transparency of the indicator in response to the analyzed sound quality of the user's voice (550).
  • the electronic device 100 may turn red the indicator color as the values of the frequency variation rate and the amplitude variation rate of the sound quality of the input user's voice increase.
  • the electronic device 100 may darken the brightness of the indicator and the transparency of the indicator. Can be lowered. As a result, the electronic device 100 may acquire and register an indicator corresponding to the user's voice (560 ). In addition, the electronic device 100 may store the registered indicator and user information in the external server or memory 120.
  • FIG. 6 is a diagram illustrating a process of determining an indicator by an electronic device according to an embodiment of the present disclosure.
  • the indicator may maintain a shape 610 having a preset size of a black and white tone before the electronic device 100 receives a voice for registering the user's indicator.
  • the electronic device 100 may analyze the input user voice and determine an indicator based on the analysis result.
  • the electronic device 100 may adjust the size, shape, position, and movement of the indicator based on a result of analyzing the sound level and intensity of the user's voice.
  • the electronic device 100 may increase the size of the first layer 620 of the indicator.
  • the electronic device 100 may increase the size of the second layer 630 of the indicator.
  • the electronic device 100 may differently determine the color 640 of the indicator based on the result of analyzing the sound quality of the user's voice.
  • the electronic device 100 may allow the user to determine characteristics of the indicator, such as a color constituting the indicator. That is, when determining an indicator corresponding to the user, the electronic device 100 may reflect the user's opinion.
  • FIGS. 7A to 7D are diagrams for describing a process of registering an indicator corresponding to a voice for registering an indicator of a user by the electronic device 100 according to an embodiment of the present disclosure.
  • FIG. 7A is a diagram illustrating a UI for explaining that the electronic device 100 can register an indicator to a user according to an embodiment of the present disclosure.
  • the electronic device 100 may control the display 130 to display a UI including a message requesting an utterance to the user.
  • the event for registering the indicator may be an event of pressing a button for registering an indicator attached to the display 130 or a remote control according to an embodiment, and a voice uttering a specific text is input through the voice input unit 110. It may be an event, an event of powering on for the first time after factory release, or an event of selecting a menu for registering an indicator. This is only an example, and events for registering an indicator may be various.
  • the electronic device 100 may display a UI including the text “This is the step of registering a user”.
  • the electronic device 100 may display a UI including various texts or user-defined images implying that an indicator can be registered.
  • FIG. 7B is a diagram illustrating a UI for requesting a user to speak for registering an indicator according to an embodiment of the present disclosure.
  • the electronic device 100 may display a UI including a message requesting a user utterance for text for switching to the voice recognition mode.
  • the electronic device 100 analyzes the characteristics of the user's voice (eg, sound level, intensity, and sound quality)
  • An indicator corresponding to the user's voice may be determined, registered, and stored in at least one of the memory 120 or an external server.
  • the electronic device 100 may determine the size, shape position, and movement of the indicator based on the sound level and intensity of the input user's voice, and determine the color and transparency of the indicator based on the input user's sound quality. You can decide. Further, the electronic device 100 may store the determined indicator in at least one of the memory 120 or an external server.
  • FIG. 7C and 7D are diagrams for explaining a UI that requests a user to speak for registering an indicator according to an embodiment of the present disclosure.
  • the electronic device 100 provides not only text for conversion to the voice recognition mode, but also one of a plurality of previously stored texts 710 and a message requesting a user utterance for the text 710.
  • the included UI can be displayed.
  • the electronic device 100 May determine an indicator corresponding to the user's voice by analyzing the characteristics of the input voice.
  • the electronic device 100 may re-store one 730 of a plurality of pre-stored texts and A UI including a message requesting a user utterance for the text 730 may be displayed. Accordingly, until an indicator corresponding to the user's voice is determined by analyzing the characteristics of the voice input from the user, the electronic device 100 includes one of a plurality of pre-stored texts and a message requesting a user utterance for the text.
  • the UI can be displayed repeatedly.
  • the electronic device 100 may indicate the degree to which the indicator corresponding to the user's voice is determined through the brightness of the background color. Specifically, as illustrated in FIG. 7C, when the analyzed characteristics of the user's voice is not sufficient to determine an indicator corresponding to the user's voice, the electronic device 100 may select one of a plurality of pre-stored texts 710 and the The brightness of the background color 720 may be set higher or lower than the brightness of the existing background color by a preset value while the UI including the message requesting the user's speech for the text 710 is displayed again.
  • the electronic device 100 may re-store one 730 of a plurality of pre-stored texts and the text ( The brightness of the background color 740 may be further increased or decreased by a preset value while displaying a UI including a message requesting a user's utterance for 730. Accordingly, the electronic device 100 may visually indicate the degree to which the indicator corresponding to the user's voice is determined through the brightness of the background color.
  • FIG. 7E is a diagram illustrating a UI informing a user that an indicator is registered by the electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 may register user information together with an indicator corresponding to the user's voice.
  • the user may input his/her information into the electronic device 100 through the voice input unit 110 or the input unit 160 before or after speaking about the text for conversion to the voice recognition mode. have.
  • the electronic device 100 may display a text stating that'Cheol-soo is registered' and an indicator corresponding to the user's voice to display a UI informing the user that the indicator has been registered. .
  • the UI for registering the indicator shown in FIGS. 7A to 7E may be displayed simultaneously with the screen displayed before the event for registering the indicator is input.
  • the UI for registering the indicator may be displayed in one area or the entire screen.
  • FIGS. 8A to 8C are diagrams illustrating a UI when the electronic device 100 recognizes a user's voice and switches to a voice recognition mode or fails to recognize a user's voice, according to an embodiment of the present disclosure.
  • the electronic device 100 when a user inputs a user's voice including text for switching to a voice recognition mode through the voice input unit 110 into the electronic device, the electronic device 100 It shows the process of recognizing the spoken user.
  • the text for switching to the voice recognition mode may be a text called'voice recognition mode' or may be a text determined by the user.
  • the electronic device 100 determines whether the voice of the uttered user matches the voice of the pre-registered user. You can judge whether or not.
  • the electronic device 100 analyzes the characteristics of the spoken user's voice (for example, the pitch, intensity, and quality of the voice) and matches the analysis result value with the analysis result value of the previously registered user's voice. . When the difference between the voice characteristic of the spoken user and the voice characteristic of the pre-registered user does not exceed the threshold value, the electronic device 100 determines that the uttered user is a pre-registered user.
  • the electronic device 100 may control the display 130 to display the figure 800 while determining whether the user's voice is the pre-registered user's voice.
  • the figure 800 can be variously modified by the user through the input unit 160 and can be changed into text or video.
  • the electronic device 100 determines that the uttered user's voice matches the pre-registered user's voice, that is, when the user who uttered the input voice is recognized, the electronic device 100 A diagram for explaining a process of converting the device 100 mode to a voice recognition mode.
  • the electronic device 100 may display an indicator corresponding to a user's voice indicating that the current mode of the electronic device is a voice recognition mode.
  • the electronic device 100 may display registered user information 820 together with an indicator corresponding to the user's voice. (For example, the electronic device 100) May display the text'Hello Cheol-soo' or output user information in a voice format.) And, the electronic device 100 may display a message 830 requesting a command from the user in the voice recognition mode. .(For example,'Please tell me.')
  • the electronic device 100 may display a plurality of objects 810 indicating whether or not the intensity of the user's voice is detectable by the voice input unit 110 in the voice recognition mode state. have.
  • the plurality of objects 810 may move on the display 130 at random with a preset size and at a preset speed.
  • the electronic device 100 may analyze the intensity of the user's voice input through the voice input unit 110 and determine the sizes and speeds of the plurality of objects 810 in response to the analysis result values.
  • the electronic device 100 does not reach a level detectable by the voice input unit 110 (about 55 db based on the voice input unit).
  • the electronic device 100 may maintain a preset value for the size and speed of the plurality of objects 810.
  • the electronic device 100 may gradually increase the size of the plurality of objects 810 and increase the speed.
  • the electronic device 100 again determines the speed and size of the plurality of objects 810. You can return to the preset speed and size before being entered.
  • FIG. 8C is according to an example of the present disclosure, and when the user who uttered a voice is not recognized, the electronic device 100 cannot switch to the voice recognition mode and recognizes'recognition' together with the indicator 840 transformed into an X mark. Failed' text can be displayed. That is, when the electronic device 100 fails to recognize a user, a message or figure corresponding thereto may be displayed. Of course, when the electronic device 100 fails to recognize the user, the message or figure displayed in response thereto may be variously modified by the user through the input unit 160 and may be displayed in one area or the entire display. .
  • the electronic device 100 may display a screen that was displayed before the user's voice was input, and again, the UI for requesting the user to speak the text for switching the voice recognition mode. Can be displayed.
  • 9A to 9C illustrate a process in which the electronic device 100 receives and executes a command from a user in a voice recognition mode and a process of analyzing a user's voice in a voice recognition mode and changing an indicator according to an embodiment of the present disclosure. It is a drawing for explanation.
  • 9A shows, when the mode of the electronic device 100 is a voice recognition mode, the electronic device 100 displays a text corresponding to the voice uttered by the user on the electronic device 100 in order to check the voice command uttered by the user It is a diagram illustrating a process of controlling the display 130 to be performed.
  • the electronic device 100 controls to display the text'tell me today's weather' on the display 130 together with an indicator corresponding to the user's voice. Accordingly, through the electronic device 100, the user can check whether the command uttered by the user is correctly inputted to the electronic device 100.
  • 9B illustrates a process in which the electronic device 100 executes a command according to a user's utterance in a voice recognition mode state.
  • the electronic device 100 may display information on today's weather.
  • a screen for performing a function according to a user's voice command may be displayed on one area or the entire display 130.
  • FIG. 9C illustrates a process of analyzing a user's voice and changing an indicator based on the analysis result when the mode of the electronic device 100 is a voice recognition mode. Since the user's voice cannot always be the same and may change over time, in the voice recognition mode, the electronic device 100 may analyze the user's voice and change the indicator to correspond to the analysis result. That is, the electronic device 100 analyzes the sound level, intensity, and sound quality of the user's voice input during the voice recognition mode, and at least one of color, size, shape, position, transparency, and movement of a plurality of layers constituting a pre-registered indicator. Can be changed.
  • the electronic device 100 when the electronic device 100 analyzes the inputted user's voice in the voice recognition mode, the analysis value corresponding to the strength and sound level of the voice is smaller than when the indicator is registered and corresponds to the sound quality.
  • the electronic device 100 may change the size of the indicator to be smaller and the color to be different. It can be seen that the indicator 920 shown in FIG. 9C is smaller in size than the indicator shown in FIG. 9A and the color of the layer is changed. Meanwhile, the electronic device 100 may display an indicator corresponding to a user's voice indicating that the voice recognition mode is in a changed state.
  • the electronic device 100 may compare a plurality of previously registered voices (S1010).
  • the electronic device 100 may analyze the characteristics of the inputted user's voice and compare the characteristics of the analyzed voice with the characteristics of a plurality of previously registered voices.
  • the electronic device 100 may determine whether a difference between a characteristic of one of a plurality of previously registered voices and a characteristic of an input user voice exceeds a threshold value.
  • the electronic device 100 may determine that the input user voice and the pre-registered voice are matched. In addition, when it is determined that the input user voice matches one of a plurality of pre-registered voices, the electronic device 100 may recognize the user who uttered the input user voice (S1020). In addition, the electronic device 100 may control the display to display an indicator corresponding to the recognized user (S1030).
  • unit or “module” used in the present disclosure includes a unit composed of hardware, software, or firmware, and may be used interchangeably with terms such as logic, logic blocks, parts, or circuits. I can.
  • the “unit” or “module” may be an integrally configured part or a minimum unit performing one or more functions, or a part thereof.
  • the module may be configured as an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • Various embodiments of the present disclosure may be implemented as software including instructions stored in a machine-readable storage medium (eg, a computer).
  • the device receives instructions stored from the storage medium.
  • a device capable of making a call and operating according to the called command it may include an electronic device (eg, the electronic device 100) according to the disclosed embodiments.
  • the processor directly or A function corresponding to the instruction may be performed by using other components under the control of the processor, and the instruction may include a code generated or executed by a compiler or an interpreter.
  • non-transitory storage medium where'non-transitory' means that the storage medium does not contain a signal and is tangible, but the data is semi-permanent in the storage medium. Or it does not distinguish that it is stored temporarily.
  • the method according to various embodiments disclosed in the present document may be provided by being included in a computer program product.
  • Computer program products can be traded between sellers and buyers as commodities.
  • the computer program product may be distributed online in the form of a device-readable storage medium (eg, compact disc read only memory (CD-ROM)) or through an application store (eg, Play StoreTM).
  • CD-ROM compact disc read only memory
  • application store eg, Play StoreTM
  • at least some of the computer program products may be temporarily stored or temporarily generated in a storage medium such as a server of a manufacturer, a server of an application store, or a memory of a relay server.
  • Each of the constituent elements may be composed of a singular or a plurality of entities, and some sub-elements among the aforementioned sub-elements are omitted, or other sub-elements are It may be further included in various embodiments.
  • some constituent elements eg, a module or a program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 음성입력부, 디스플레이, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 상기 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 음성입력부를 통해 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하고, 인식된 사용자에 대응되는 인디케이터를 표시하도록 제어할 수 있다.

Description

전자 장치 및 이의 제어 방법
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 더욱 상세하게는 사용자의 음성을 분석하여 사용자에 대응되는 인디케이터를 등록하고, 음성 인식된 사용자에 대응되는 인디케이터를 표시하는 전자 장치 및 제어 방법에 관한 것이다.
근래의 전자 장치가 점차 다기능화, 고도화됨에 따라 전자 장치를 제어하기 위한 다양한 입력 방법이 개발되어 왔다. 특히, 다른 수작업을 필요로 하지 않고 오로지 사용자가 발화한 음성을 이용하여 각종 기능을 수행할 수 있는 음성 인식을 이용한 입력 방법이 각광을 받고 있다.
음성 인식을 이용한 입력 방법의 기술적 배경인 음성 인식 기술은 각종 산업분야 뿐만 아니라 일상생활에도 다양하게 활용되고 있으며, 현재 음성 인식 기술에 대한 연구 및 수요가 점자 증가하고 있다.
다만, 음성 인식 기술은 주변 소음 등에 영향을 많이 받을 수 있다는 단점이 존재한다. 그리고, 사용자가 발화하는 음성은 항상 동일하지 않고 조금씩 변할 수 있기 때문에 전자 장치는 사전에 등록된 음성과 등록된 사용자의 변한 음성의 차이를 감지해야 한다.
그리하여, 음성 인식 기술은 사용자 음성이 전자 장치에 입력되면 전자 장치는 사용자 음성을 분석하고, 분석한 결과 및 피드백을 사용자에게 전달하는 기능을 포함하고 있다. 따라서, 사용자는 자신의 음성 분석 결과를 바탕으로 전자 장치에 음성을 재등록하는 등, 음성 분석 결과 및 피드백을 활용하여 음성 인식 기술을 더 효율적으로 사용할 수 있다.
다만, 기존의 음성 인식 입력 장치의 경우, 디스플레이가 포함되지 않은 경우가 많아서 사용자는 입력된 음성의 분석 결과 및 피드백을 알림음으로 전달받을 수 밖에 없었다.
즉, 사용자는 자신의 음성 입력 상태 및 인식 상태를 시각적으로 확인하기 어렵다는 한계가 존재하였다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 음성 인식을 하는 전자 장치에 디스플레이를 추가하여 입력된 사용자 음성을 바탕으로 사용자의 인디케이터를 등록하고, 발화한 사용자의 음성을 인식하여 인식된 사용자에 대응되는 인디케이터를 표시하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른 전자 장치는 음성입력부, 디스플레이, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리, 및 상기 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하고, 상기 인식된 사용자에 대응되는 인디케이터를 표시하도록 상기 디스플레이를 제어할 수 있다.
그리고, 상기 프로세서는 상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하도록 상기 디스플레이를 제어하고, 상기 발화를 요구하는 UI가 표시되는 동안 상기 음성입력부를 통해 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자 음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하고, 상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 상기 메모리 중 적어도 하나에 저장할 수 있다.
또한, 상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 할 수 있다.
그리고, 상기 프로세서는 상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정할 수 있다.
또한, 상기 음도 및 강도는 상기 인디케이터의 크기, 형상, 위치 및 움직임 중 적어도 하나를 결정하고, 상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 할 수 있다.
그리고, 상기 프로세서는 상기 음성입력부를 통해 상기 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 상기 사용자의 음성이 입력되면, 상기 입력된 음성을 발화한 사용자를 인식하고, 상기 입력된 음성을 발화한 사용자가 인식되면 상기 음성 인식 모드로 전환할 수 있다.
또한, 상기 인디케이터는 상기 사용자에 대응되면서, 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 인디케이터인 것을 특징으로 할 수 있다.
그리고, 상기 프로세서는 상기 음성 인식 모드 동안 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 상기 입력된 사용자 음성의 분석 결과에 대응되도록 상기 인디케이터를 변경할 수 있다.
또한, 상기 프로세서는 상기 음성 인식 모드 동안 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경할 수 있다.
그리고, 상기 프로세서는 상기 등록된 인디케이터와 동시에 상기 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어할 수 있다.
한편, 상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른 전자 장치 제어 방법에 있어서, 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하는 단계; 및 상기 인식된 사용자에 대응되는 인디케이터를 표시하는 단계;를 포함할 수 있다.
그리고, 상기 인디케이터를 등록하는 단계는 상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하는 단계, 상기 발화를 요구하는 UI가 표시되는 동안 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자의 상기 인디케이터를 등록하기 위한 음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하는 단계; 상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 메모리 중 적어도 하나에 저장하는 단계;를 포함할 수 있다.
또한, 상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 할 수 있다.
그리고, 상기 획득하는 단계는 상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정하는 단계;를 포함할 수 있다.
또한, 상기 음도 및 강도는 상기 인디케이터의 크기, 형상 위치 및 움직임 중 적어도 하나를 결정하고, 상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 할 수 있다.
그리고, 상기 사용자를 인식하는 단계는, 상기 음성입력부를 통해 상기 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 상기 사용자의 음성이 입력되면, 상기 입력된 음성을 발화한 사용자를 인식하는 단계; 및 상기 입력된 음성을 발화한 사용자가 인식되면 상기 음성 인식 모드로 전환하는 단계;를 포함할 수 있다.
또한, 상기 인디케이터는 상기 사용자에 대응되면서, 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 인디케이터인 것을 특징으로 할 수 있다.
그리고, 상기 음성 인식 모드 동안 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 상기 입력된 사용자 음성의 분석 결과에 대응되도록 상기 인디케이터를 변경하는 단계;를 포함할 수 있다.
또한, 상기 변경하는 단계는 상기 음성 인식 모드 동안 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경하는 것을 특징으로 할 수 있다.
그리고, 상기 디스플레이를 제어하는 단계는 상기 등록된 인디케이터와 동시에 상기 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어하는 단계;를 포함할 수 있다.
상술한 바와 같이 본 개시의 다양한 실시예에 의해, 전자 장치는 입력된 음성을 분석하여 발화한 사용자를 인식하고, 인식한 사용자에 대응하는 기등록된 인디케이터를 표시하므로써 사용자는 음성 입력 상태를 시각적으로 제공받을 수 있다.
도 1은 본 개시의 일 실시예에 따른, 인디케이터를 표시하는 전자 장치를 도시한 도면,
도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,
도 3은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 상세히 도시한 블록도,
도 4a는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 분석하고 분석한 결과를 바탕으로 인디케이터를 획득하는 구성을 설명하기 위한 블록도,
도 4b는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 분석하기 위한 구성을 설명하기 위한 블록도,
도 5는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 바탕으로 인디케이터를 획득하는 과정을 설명하기 위한 블록도,
도 6는 본 개시의 일 실시예에 따른, 전자 장치가 인디케이터를 결정하는 과정을 설명하기 위한 도면,
도 7a는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터를 등록할 수 있음을 설명하는 UI를 설명하기 위한 위한 도면,
도 7b는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면,
도 7c는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면,
도 7d는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면,
도 7e는 본 개시의 일 실시예에 따른, 전자 장치가 사용자에게 인디케이터가 등록되었음을 알리는 UI를 설명하기 위한 도면,
도 8a는 본 개시의 일 실시예에 따른, 전자 장치가 사용자의 음성을 인식하는 과정을 설명하기 위한 도면,
도 8b는 본 개시의 일 실시예에 따른, 전자 장치가 사용자의 음성 인식하여 음성 인식 모드로 전환하는 과정을 설명하기 위한 도면,
도 8c는 본 개시의 일 실시예에 따른, 전자 장치가 사용자의 음성 인식을 실패했을 때 표시하는 화면을 설명하기 위한 도면,
도 9a는 본 개시의 일 실시예에 따른, 전자 장치가 음성 인식 모드에서 사용자 명령을 입력받는 과정을 설명하기 위한 도면,
도 9b는 본 개시의 일 실시예에 따른, 전자 장치가 음성 인식 모드에서 사용자 명령에 따라 명령을 수행하는 과정을 설명하기 위한 도면,
도 9c는 본 개시의 일 실시예에 따른, 전자 장치가 음성 인식 모드에서 사용자 음성을 분석하여 인디케이터를 변경하는 과정을 설명하기 위한 도면,
도 10은 본 개시의 일 실시예에 따른, 전자 장치 제어 방법을 설명하기 위한 순서도이다.
이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.
이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하도록 한다.
도 1은 본 개시의 일 실시예에 따른, 인디케이터를 표시하는 전자 장치(100)를 도시한 도면이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 입력받은 사용자의 음성을 바탕으로 복수의 레이어(10-1, 10-2, 10-3)로 이루어진 인디케이터(10)를 결정할 수 있다.
전자 장치(100)는 음성입력부(110)를 통해 입력받은 사용자 음성을 바탕으로 사용자 음성에 대응하는 인디케이터를 결정 및 등록하고 메모리(120)나 외부 서버 둘 중 적어도 하나에 저장할 수 있다. 구체적으로, 전자 장치(100)는 인디케이터(10)를 등록하기 위한 이벤트가 발생하면, 사용자에게 발화를 요구하는 UI를 표시할 수 있다. 사용자에게 발화를 요구하는 UI가 표시되는 동안 사용자 음성이 입력되면, 전자 장치(100)는 사용자 음성을 분석하여 사용자 음성에 대응되는 인디케이터(10)를 결정할 수 있다. 구체적으로, 전자 장치(100)는 음성입력부(110)를 통해 입력받은 사용자의 음성을 분석하고, 분석된 사용자의 음성의 특성(예를 들어, 음성의 음도, 강도 및 음질)에 따라 인디케이터(10)를 다양하게 결정할 수 있다. 일 실시예로, 전자 장치(100)는 입력받은 사용자의 음성의 특성을 분석하여 인디케이터를 이루는 레이어의 수 및 여러가지 특성(예를 들어, 색, 크기, 형상, 위치, 투명도 및 움직임)을 결정할 수 있다. 따라서, 도 1에서 도시하고 있는 인디케이터(10)를 구성하고 있는 복수의 레이어(10-1, 10-2, 10-3)는 일 실시예일 뿐, 다양하게 구성될 수 있다. 그리고, 전자 장치(100)는 결정된 인디케이터(10)를 등록하고 사용자 정보와 사용자와 대응되는 인디케이터(10)를 외부 서버 또는 메모리(120) 둘 중 적어도 하나에 저장할 수 있다.
또한, 음성입력부(110)를 통해 사용자의 음성이 입력되면, 전자 장치(100)는 입력된 음성을 발화한 사용자를 인식할 수 있다. 구체적으로, 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자의 음성이 음성입력부(110)를 통해 입력되면, 전자 장치(100)는 기등록된 복수의 음성과 입력된 음성을 비교하여 발화한 사용자를 인식할 수 있다. 그리고, 입력된 음성을 발화한 사용자가 인식되면 전자 장치(100)는 전자 장치(100)의 모드를 음성 인식 모드로 전환할 수 있다. 한편, 전자 장치(100)의 모드가 음성 인식 모드인 경우 전자 장치(100)는 사용자 음성에 대응되는 인디케이터(10)와 사용자 정보, 및 사용자의 음성의 강도가 음성입력부(110)가 감지할 수 있을 정도의 강도인지 여부를 알려주는 복수의 오브젝트(810)를 표시할 수 있다.
그리고, 전자 장치(100)는 인식된 사용자에 대응되는 등록된 인디케이터(10)를 표시하도록 디스플레이(130)를 제어할 수 있다. 구체적으로, 전자 장치(100)는 도 1에서 도시하고 있는 바와 같이 인디케이터(10)를 표시하여 전자 장치(100)의 모드가 음성 인식 모드임을 나타낼 수 있다. 또한, 음성 인식 모드 동안 사용자의 음성이 입력되면, 전자 장치(100)는 입력된 사용자 음성의 분석 결과에 대응되도록 인디케이터(10)를 변경할 수 있다. 예를 들어, 음성 인식 모드 동안, 입력된 사용자의 음성이 기등록된 사용자의 음성과 차이가 있을 경우, 전자 장치(100)는 입력된 사용자의 음성과 기등록된 사용자의 음성 차이를 분석하여 인디케이터(10)의 복수의 레이어(10-1, 10-2, 10-3)의 특성을 변경할 수 있다.
전자 장치(100)는 음성 인식 모드인 동안, 사용자의 음성에 대응되는 인디케이터(10)와 동시에 사용자에게 명령을 요구하는 메시지를 표시할 수 있다. 즉, 전자 장치(100)는 사용자가 발화한 음성 명령을 확인하기 위하여 사용자가 발화한 음성에 대응되는 텍스트를 전자 장치(100)에 표시하도록 디스플레이(130)를 제어할 수 있다. 따라서, 사용자는 음성 인식 모드 상태에서 음성으로 전자 장치(100)에게 여러 명령을 할 수 있다.
도 2는 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 간략하게 도시한 블록도이다. 도 2에서 도시된 바와 같이, 전자 장치(100)는 음성입력부(110), 메모리(120), 디스플레이(130) 및 프로세서(140)를 포함할 수 있다. 그러나 상술한 구성에 한정되는 것은 아니며, 전자 장치의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다.
음성입력부(110)는 사용자 음성을 입력받을 수 있다. 특히, 음성입력부(110)는 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자 발화를 수신할 수 있고 사용자의 명령이 담긴 음성을 수신할 수 있다.
그리고, 음성입력부(110)는 전자 장치(100) 내부에 구비될 수 있으나, 외부에 구비되어 전자 장치(100)와 전기적으로 연결되거나 통신부(150)를 통해 통신 연결될 수 있다.
메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 인스트럭션(Instruction) 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(140)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(140) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이(130)의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.
그리고, 메모리(120)는 음성입력부(110)로부터 입력된 사용자 음성에 대응되는 인디케이터 및 사용자 정보를 저장할 수 있다. 구체적으로, 메모리(120)는 전자 장치(100)가 입력된 사용자의 인디케이터를 등록하기 위한 음성을 분석하여 획득한 인디케이터 및 사용자 정보를 저장할 수 있다. 메모리(120)가 저장하는 사용자 정보는 사용자의 음성, 음성의 특성(예를 들어, 음성의 강도, 음도 및 음질), 사용자 이름, 나이 및 성별 등이 될 수 있으나 이는 일 실시예일 뿐 이다.
디스플레이(130)는 프로세서(140)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(130)는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시할 수 있다. 또한, 디스플레이(130)는 인식된 사용자에 대응되는 등록된 인디케이터 및 사용자 인식에 따라 전환된 음성 인식 모드를 나타내는 화면을 표시할 수 있다.
그리고, 디스플레이(130)는 터치 패널과 함께 터치 스크린으로도 구현될 수 있다. 그러나 상술한 구현으로 한정되는 것은 아니며, 디스플레이는(130)는 전자 장치의 유형에 따라 다르게 구현될 수 있다.
프로세서(140)는 메모리(120) 및 디스플레이(130)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(140)는 음성입력부(110)를 통해 사용자의 음성이 입력되면, 입력된 음성을 발화한 사용자를 인식하고, 인식된 사용자에 대응되는 인디케이터를 표시하도록 디스플레이(130)를 제어할 수 있다.
그리고, 인디케이터를 등록하기 위한 이벤트가 발생하면, 프로세서(140)는 사용자에게 발화를 요구하는 UI를 표시하도록 디스플레이(130)를 제어할 수 있다. 그리고, 발화를 요구하는 UI가 표시되는 동안 음성입력부(110)를 통해 사용자의 인디케이터를 등록하기 위한 음성이 입력되면, 프로세서(140)는 사용자 음성을 분석하여 사용자 음성에 대응되는 인디케이터를 획득하고, 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 메모리(120)에 저장할 수 있다. 특히, 발화를 요구하는 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함할 수 있다.
한편, 프로세서(140)는 사용자 음성의 특성을 분석하여 인디케이터를 구성하는 복수의 레이어의 특성을 결정할 수 있다. 구체적으로, 프로세서(140)는 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터를 이루고 있는 복수의 레이어의 색, 크기, 형상, 위치, 투명도 및 움직임을 결정할 수 있다. 일 실시예로, 프로세서(140)는 사용자 음성의 음도 및 강도를 분석하여 인디케이터를 이루는 레이어의 크기, 형상 위치 및 움직임 중 적어도 하나를 결정할 수 있고, 음질을 분석하여 인디케이터를 이루는 레이어의 색 및 투명도 중 적어도 하나를 결정할 수 있다.
그리고, 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자의 음성이 음성입력부(110)를 통해 입력되면, 프로세서(140)는 입력된 음성을 발화한 사용자를 인식하고 입력된 음성을 발화한 사용자가 인식되면 음성 인식 모드로 전환할 수 있다. 구체적으로, 프로세서(140)는 입력받은 사용자의 음성을 분석하고 그 분석 결과값을 기등록된 사용자 음성의 분석 결과와 비교하여, 발화한 사용자가 기등록된 사용자가 맞는지 여부를 판단할 수 있다.
또한, 음성 인식 모드 상태에서 프로세서(140)는 사용자가 발화한 음성을 인식하고 입력된 사용자의 음성 분석 결과에 대응되도록 인디케이터를 변경할 수 있다. 구체적으로, 프로세서는(140)는 음성 인식 모드 동안 음성입력부(110)를 통해 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터를 이루고 있는 복수의 레이어의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경할 수 있다.
한편, 프로세서는(140)는 등록된 인디케이터와 동시에 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어할 수 있다. 사용자가 명령이 포함된 발화를 음성입력부(110)를 통해 전자 장치(100)에 입력하는 경우, 프로세서(140)는 사용자가 발화한 음성 명령을 확인하기 위하여 사용자가 발화한 음성에 대응되는 텍스트를 전자 장치(100)에 표시하도록 디스플레이(130)를 제어할 수 있다. 그리고, 프로세서(140)는 사용자 명령에 대응되는 기능을 수행할 수 있다.
도 3은 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 상세히 도시한 블록도이다. 도 3에 도시된 바와 같이, 전자 장치(100)는 음성입력부(110), 메모리(120), 디스플레이(130), 프로세서(140), 통신부(150), 입력부(160) 및 스피커(170)를 포함할 수 있다. 한편, 도 3에 도시된 음성입력부(110), 메모리(120), 디스플레이(130) 및 프로세서(140)는 도 2에서 설명하였으므로, 중복되는 설명은 생략하기로 한다.
통신부(150)는 외부 장치와 통신을 수행할 수 있다. 이때, 통신부(150)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다.
특히, 통신부(150)는 전자 장치(100)의 리모컨, 스마트폰, AI 스피커 등과 같은 외부 장치와 통신을 연결하여 외부 장치의 마이크로 입력되는 사용자의 음성을 수신할 수 있다. 일 실시예로, 전자 장치(100)의 리모컨의 마이크에 사용자의 인디케이터를 등록하기 위한 음성이 입력되면, 통신부(150)는 리모컨으로부터 사용자의 음성이 담긴 신호를 수신할 수 있다.
한편, 통신부(150)는 외부 장치와 통신을 수행하기 위해 다양한 통신 모듈을 포함할 수 있다. 일 예로, 통신부(150)는 무선 통신 모듈을 포함할 수 있으며, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신 모듈을 포함할 수 있다. 또 다른 예로, 무선 통신 모듈은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 또한, 통신부(150)는 유선 통신 모듈을 포함할 수 있으며 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 무선 통신 또는 유선 통신이 수행되는 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.
입력부(160)는 전자 장치(100)를 제어하기 위한 사용자 입력을 수신할 수 있다. 특히, 입력부(160)는 사용자 손 또는 스타일러스 펜 등을 이용한 사용자 터치를 입력받기 위한 터치 패널, 사용자 조작을 입력받기 위한 버튼 등이 포함될 수 있다. 그 밖에, 입력부(160)는 다른 입력 장치(예로 리모컨, 모션 입력부, 가상 키보드, 마우스)로 구현될 수 있다. 일 실시예로, 사용자는 리모컨의 음성 인식 버튼을 눌러 인디케이터를 등록하기 위한 이벤트를 입력할 수 있다. 그리고, 사용자는 가상 키보드를 이용하여 음성 인식 모드를 구성하고 있는 이미지나 텍스트를 변경할 수 있다.
스피커(170)는 오디오 처리부에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 한편, 오디오를 출력하기 위한 구성은 스피커(170)로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.
프로세서(140)는 디지털 신호를 처리하는 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(140)는 메모리(120)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(140)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.
도 4a 및 도4b는 본 개시의 일 실시예에 따른, 전자 장치가 음성을 분석하고 분석한 결과를 바탕으로 인디케이터를 획득하는 구성을 설명하기 위한 블록도이다. 도 4a에 도시된 바와 같이, 전자 장치(100)는 음성입력부(110)를 통해 입력된 사용자의 음성을 분석하고, 발화한 사용자를 인식하고, 발화한 음성의 변화를 검출하는 음성 분석부(410)를 포함할 수 있다.
도 4b에 도시된 바와 같이, 음성 분석부(410)는 음도/강도(Pitch/Loudness) 분석 모듈(430), 음질(Quality) 분석 모듈(440), 화자 판단 모듈(450) 및 변화 검출 모듈(460)를 통해 음성을 분석할 수 있다.
음도/강도 분석 모듈(430)은 음성입력부(110)를 통해 입력된 사용자의 음성의 음도 및 강도를 분석할 수 있다. 음도는 음의 높낮이를 의미하며 초당 진동수에 의해 결정된다. 평균적인 남성의 음성 음도는 118Hz이고 평균적인 여성의 음성 음도는 211Hz인바 일 실시예로, 전자 장치(100)는 음도를 분석하여 발화한 사람의 성별을 구분할 수 있다. 강도는 음의 세기를 의미하며 음성 진동의 폭에 따라 결정된다. 음성입력부(110)의 상태 혹은 사용자가 발화하는 거리에 따라 입력되는 사용자의 음성의 강도는 달라질 수 있다.
음질 분석 모듈(440)은 음성입력부(110)를 통해 입력된 사용자의 음성의 음질을 분석할 수 있다. 즉, 음질 분석 모듈(440)는 음성의 주파수 변동률(Jitter), 진폭 변동(Shimmer) 및 노이즈를 분석할 수 있다. 주파수 변동률은 음성의 음도가 분석구간에서 얼마나 변화하였는지를 의미한다. 진폭 변동은 음성의 강도가 분석 구간에서 얼마나 변화하였는지를 의미한다. 노이즈는 성대 진동과 호흡이 불규칙한 정도를 의미하며, 불규칙한 상태 즉 노이즈가 큰 상태는 주파수 변동률과 진폭 변동률이 모두 커진 상태를 의미한다. 일 실시예로, 주파수 변동률, 진폭 변동 및 노이즈에 대응되는 값이 클 경우 음질 분석 모듈(440)은 발화한 사용자의 감정 변화가 큰 것을 판단할 수 있다. 즉, 음질 분석 모듈(440)은 음질을 분석하여 사용자의 감정 변화를 추출할 수 있다.
화자 판단 모듈(450)은 사용자의 음성 분석 결과를 바탕으로 발화한 사용자의 음성이 기등록된 사용자의 음성인지를 여부를 판단할 수 있다. 즉, 화자 판단 모듈(450)은 음성입력부(110)를 통해 사용자의 음성이 입력되면, 발화한 사용자의 음성이 기등록된 복수의 음성과 비교하여 등록된 사용자의 음성임을 판단할 수 있다. 예를 들면, 화자 판단 모듈(450)은 음성입력부(110)를 통해 입력된 사용자의 음성의 특성(예를 들어, 음성의 음도, 강도 및 음질)을 분석하고 기등록된 복수의 사용자의 음성의 특성과 매칭한다. 만약, 입력된 사용자의 음성의 특성과 기등록된 사용자의 음성의 특성의 차이가 임계값을 초과하지 않은 경우, 화자 판단 모듈(450)은 입력된 음성은 기등록된 사용자에 의해 발화한 것으로 판단한다. 따라서, 화자 판단 모듈(450)은 발화한 사용자를 인식할 수 있다.
변화 검출 모듈(460)은 전자 장치(100)가 음성 인식 모드 상태일 때, 음성입력부(110)를 통해 입력된 사용자 음성의 분석결과가 기존에 분석 결과와 차이가 있는 것을 검출할 수 있다. 즉, 사용자가 발화하는 음성은 항상 동일하지 않고 조금씩 변할 수 있기 때문에 변화 검출 모듈(460)은 음성 인식 모드인 동안 사용자의 음성의 차이를 검출할 수 있다.
한편, 도 4a에 도시된 그래픽 처리부(420)는 음성 분석부(410)를 통하여 분석한 결과를 바탕으로 인디케이터의 구성요소를 결정할 수 있다. 그래픽 처리부(420)는 사용자 음성의 음도, 강도 및 음질을 분석하여 인디케이터를 이루는 복수의 레이어의 개수 및 복수의 레이어의 색, 크기, 형상, 위치, 투명도, 움직임 등을 결정할 수 있다. 이 때, 그래픽 처리부(420)는 음도 및 강도를 분석하여 인디케이터의 크기, 형상 위치 및 움직임을 결정할 수 있고, 음질을 분석하여 상기 인디케이터의 색 및 투명도를 결정할 수 있다. 일 실시예로, 그래픽 처리부(420)는 사용자 음성의 음도 및 강도값이 크다는 분석결과를 바탕으로 인디케이터의 레이어(Layer) 크기를 크게 할 수 있다. 한편, 일 실시예로, 그래픽 처리부(420)는 사용자 음성의 음질의 분석에 대응되는 결과 값이 클수록 인디케이터의 색을 빨간색 또는 짙은 색으로 결정할 수 있다. 그러나 이는 일 실시예에 불과하고 그래픽 처리부(420)는 다양하게 음성 분석 결과를 바탕으로 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임을 결정할 수 있다.
도 5는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 바탕으로 인디케이터를 획득하는 과정을 설명하기 위한 블록도이다.
먼저 전자 장치(100)는 음성입력부(110)를 통해 사용자로부터 사용자의 인디케이터를 등록하기 위한 음성을 입력 받을 수 있다(510). 그리고, 전자 장치(100)는 입력받은 사용자 음성의 음도 및 강도를 분석할 수 있다(520). 전자 장치(100)는 분석한 사용자 음성의 음도 및 강도의 값에 대응하여 인디케이터의 크기, 형상, 위치, 움직임을 조절할 수 있다(530). 일 실시예로, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도 분석값이 클수록 인디케이터의 크기를 크게 할 수 있다. 또한, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도 분석값이 클수록 인디케이터의 형상을 각지게 할 수 있고 인디케이터의 위치를 디스플레이(130)의 상단 영역에 위치하게 할 수 있다. 그리고, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도 분석값이 클수록 인디케이터의 움직이는 속도를 빠르게 할 수 있다. 물론 이는 일 실시예일 뿐, 전자 장치(100)는 사용자의 음성의 음도 및 강도 분석 결과값에 따라 인디케이터를 다양하게 결정할 수 있다. 한편, 전자 장치(100)는 입력받은 사용자 음성의 음질을 분석할 수 있다(540). 전자 장치(100)는 분석한 사용자 음성의 음질에 대응하여 인디케이터의 색 및 투명도를 조절할 수 있다(550). 일 실시예로, 입력된 사용자의 음성의 음질의 주파수 변동률 및 진폭 변동률의 값이 클수록 전자 장치(100)는 인디케이터의 색을 붉게할 수 있다. 그리고, 일 실시예로, 입력된 사용자의 음성의 음질을 분석할 때 성대 진동과 호흡이 불규칙한 정도(즉, 노이즈)가 클 수록 전자 장치(100)은 인디케이터의 명도를 어둡게 할 수 있고 인디케이터의 투명도를 낮게 할 수 있다. 그 결과, 전자 장치(100)는 사용자 음성에 대응되는 인디케이터를 획득하고 등록할 수 있다(560). 그리고 전자 장치(100)는 등록된 인디케이터와 사용자 정보를 외부 서버 또는 메모리(120)에 저장할 수 있다.
도 6는 본 개시의 일 실시예에 따른, 전자 장치가 인디케이터를 결정하는 과정을 설명하기 위한 도면이다.
인디케이터는 전자 장치(100)가 사용자의 인디케이터를 등록하기 위한 음성을 입력받기 전에는 흑백톤의 기설정된 크기를 가지는 모양(610)을 유지할 수 있다. 음성입력부(110)를 통해 사용자 음성이 입력되면, 전자 장치(100)는 입력된 사용자 음성을 분석하고 분석 결과를 바탕으로 인디케이터를 결정할 수 있다. 특히, 전자 장치(100)는 사용자 음성의 음도 및 강도를 분석한 결과를 바탕으로 인디케이터의 크기, 형상, 위치, 및 움직임을 조절할 수 있다. 일 실시예로, 사용자 음성의 음도 분석 결과값이 클수록 전자 장치(100)는 인디케이터의 제 1레이어(620)의 크기를 크게 할 수 있다. 마찬가지로 일 시예로, 사용자의 음성의 강도 분석 결과 값이 클수록 전자 장치(100)는 인디케이터의 제 2레이어(630)의 크기를 크게할 수 있다. 그리고, 일 실시예로 전자 장치(100)는 사용자의 음성의 음질 분석 결과를 바탕으로 인디케이터의 색(640)을 다르게 결정할 수 있다.
그리고, 전자 장치(100)는 사용자에 대응되는 인디케이터를 결정하기 전에 사용자에게 인디케이터를 구성하는 색 등 인디케이터의 특성을 결정할 수 있게 할 수 있다. 즉, 전자 장치(100)는 사용자에 대응하는 인디케이터를 결정할 때, 사용자의 의견을 반영할 수 있다.
도 7a 내지 도 7d는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자의 인디케이터를 등록하기 위한 음성에 대응되는 인디케이터를 등록하는 과정을 설명하기 위한 도면이다.
도 7a는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자에게 인디케이터를 등록할 수 있음을 설명하는 UI를 표시하는 도면을 개시하고 있다. 인디케이터를 등록하기 위한 이벤트가 발생하면, 전자 장치(100)는 사용자에게 발화를 요구하는 메시지를 포함하는 UI를 표시하도록 디스플레이(130)를 제어할 수 있다. 인디케이터를 등록하기 위한 이벤트는 일 실시예에 따르면, 디스플레이(130) 또는 리모컨에 부착되어 있는 인디케이터 등록을 위한 버튼을 누르는 이벤트일 수 있고 음성입력부(110)를 통해 특정 텍스트를 발화한 음성이 입력되는 이벤트일 수 있고, 공장 출시 후 최초로 파워 온 하는 이벤트, 인디케이터 등록을 위한 메뉴를 선택하는 이벤트일 수 있다. 이는 일 실시예에 불과할 뿐, 인디케이터를 등록하기 위한 이벤트는 다양할 수 있다.
한편, 인디케이터를 등록하기 위한 이벤트가 발생하면, 전자 장치(100)는 '사용자를 등록하는 단계입니다'라는 텍스트를 포함하는 UI를 표시할 수 있다. 다만, 이는 일 실시예에 불과할 뿐, 전자 장치(100)는 인디케이터를 등록할 수 있다는 의미를 내포한 다양한 텍스트 또는 사용자 정의 이미지를 포함하는 UI를 표시할 수 있다.
도 7b는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면이다. 전자 장치(100)는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메세지를 포함하는 UI를 표시할 수 있다. 전자 장치(100)는 사용자로부터 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자의 발화가 입력되면, 전자 장치(100)는 사용자 음성의 특성(예를 들어, 음도, 강도 및 음질)을 분석하여 사용자 음성에 대응되는 인디케이터를 결정하고 등록하고 메모리(120) 또는 외부 서버 중 적어도 하나에 저장할 수 있다. 일 실시예로, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도를 바탕으로 인디케이터의 크기, 형상 위치 및 움직임을 결정할 수 있으며, 입력된 사용자의 음질을 바탕으로 인디케이터의 색 및 투명도를 결정할 수 있다. 그리고, 전자 장치(100)는 결정된 인디케이터를 메모리(120) 또는 외부 서버 중 적어도 하나에 저장할 수 있다.
도 7c 및 도 7d는 본 개시의 일 실시예에 따른 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면이다. 도 7c에서 도시한 바와 같이, 전자 장치(100)는 음성 인식 모드로의 전환을 위한 텍스트 뿐 아니라 기저장된 복수의 텍스트 중 하나(710) 및 상기 텍스트(710)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시할 수 있다. 그리고, 기저장된 복수의 텍스트 중 하나(710)와 상기 텍스트(710)에 대한 사용자 발화를 요구하는 메시지를 포함한 UI가 표시될 때, 사용자로부터 표시된 텍스트에 대한 음성이 입력되면, 전자 장치(100)는 입력된 음성의 특성을 분석하여 사용자 음성에 대응되는 인디케이터를 결정할 수 있다. 다만, 분석한 사용자 음성의 특성이 사용자의 음성에 대응되는 인디케이터를 결정하기에 충분하지 않은 경우, 도 7d에 도시한 바와 같이 전자 장치(100)는 다시 기저장된 복수의 텍스트 중 하나(730) 및 상기 텍스트(730)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시할 수 있다. 따라서, 사용자로부터 입력된 음성의 특성을 분석하여 사용자 음성에 대응되는 인디케이터가 결정될 때까지, 전자 장치(100)는 기저장된 복수의 텍스트 중 하나와 상기 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 반복하여 표시할 수 있다.
그리고, 도 7c 및 도 7d에서 도시한 바와 같이 일 실시예로 전자 장치(100)는 사용자의 음성에 대응되는 인디케이터가 결정된 정도를 배경색의 명도를 통해 나타낼 수 있다. 구체적으로, 도 7c에서 도시한 바와 같이 분석한 사용자 음성의 특성이 사용자 음성에 대응되는 인디케이터를 결정하기에 충분하지 않은 경우, 전자 장치(100)는 기저장된 복수의 텍스트 중 하나(710)와 상기 텍스트(710)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 다시 표시하면서 배경색(720)의 명도를 기존의 배경색의 명도보다 기설정된 값만큼 높게 또는 낮게할 수 있다. 그리고, 분석한 사용자 음성의 특성이 사용자에 대응되는 인디케이터를 결정하기에 충분하지 않은 경우 도 7d에서 도시한 바와 같이 전자 장치(100)는 다시 기저장된 복수의 텍스트 중 하나(730) 및 상기 텍스트(730)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시하면서 더욱 배경색(740)의 명도를 기설정된 값만큼 높게 또는 낮게할 수 있다. 따라서, 전자 장치(100)는 배경색의 명도를 통해 사용자 음성에 대응되는 인디케이터가 결정된 정도를 시각적으로 나타낼 수 있다.
도 7e는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자에게 인디케이터가 등록되었음을 알리는 UI를 설명하기 위한 도면이다. 전자 장치(100)는 사용자 음성에 대응하는 인디케이터와 함께 사용자 정보를 같이 등록할 수 있다. 일 실시예에 따르면, 사용자가 음성 인식 모드로의 전환을 위한 텍스트에 대해서 발화하기 전 혹은 후에 자신의 정보를 미리 음성입력부(110) 또는 입력부(160)를 통해 전자 장치(100)에 입력할 수 있다. 도 7e에 도시된 바와 같이 일 실시예에 따르면, 전자 장치(100)는 '철수님 등록되었습니다'라는 텍스트와 사용자 음성에 대응되는 인디케이터를 표시하여 사용자에게 인디케이터가 등록되었음을 알리는 UI를 표시할 수 있다.
한편, 도 7a 내지 도 7e에서 도시하고 있는 인디케이터를 등록하기 위한 UI는 인디케이터 등록을 위한 이벤트가 입력되기 전에 표시하고 있는 화면과 동시에 표시될 수 있다. 그리고, 인디케이터를 등록하기 위한 UI는 화면 일 영역 또는 전체에서 표시될 수 있다.
도 8a 내지 도 8c는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자의 음성을 인식하여 음성 인식 모드로 전환될 때 혹은 음성 인식을 실패할 때의 UI를 도시하는 도면이다.
도 8a는 본 개시의 일 실시예에 따른 것으로, 사용자가 음성입력부(110)를 통해 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자 음성을 전자 장치에 입력할 때, 전자 장치(100)가 발화한 사용자를 인식하는 과정을 도시하고 있다. 음성 인식 모드로의 전환을 위한 텍스트는 '음성인식모드'라는 텍스트일 수 도 있고 사용자가 정한 텍스트일 수 있다. 일 실시예로, 사용자로부터 '음성인식모드'라는 음성 인식 모드로의 전환을 위한 텍스트가 포함된 음성이 입력되면, 전자 장치(100)는 발화한 사용자의 음성이 기등록된 사용자의 음성과 맞는지 여부를 판단할 수 있다. 구체적으로, 전자 장치(100)는 발화한 사용자의 음성의 특성(예를 들어, 음성의 음도, 강도 및 음질)을 분석하고 그 분석 결과값과 기등록된 사용자의 음성의 분석 결과값을 매칭한다. 발화한 사용자의 음성의 특성과 기등록된 사용자의 음성의 특성의 차이가 임계값을 초과하지 않는 경우, 전자 장치(100)는 발화한 사용자가 기등록된 사용자임을 판단한다. 전자 장치(100)는 사용자의 음성이 기등록된 사용자의 음성이 맞는지 여부를 판단하는 동안에 도형(800)을 표시하도록 디스플레이(130)를 제어할 수 있다. 물론, 도형(800)은 사용자가 입력부(160)를 통해 다양하게 변형할 수 있으며, 텍스트 또는 동영상 등으로 변경될 수 있다.
도 8b는 본 개시의 일 실시예에 따른 것으로, 전자 장치(100)가 발화한 사용자의 음성이 기등록된 사용자의 음성과 맞다는 것을 판단하면, 즉 입력된 음성을 발화한 사용자를 인식하면 전자 장치(100) 모드를 음성 인식 모드로 전환할 수 있는 과정을 설명하기 위한 도면이다.
전자 장치(100)는 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 사용자 음성에 대응되는 인디케이터를 표시할 수 있다. 그리고, 일 실시예로, 음성 인식 모드에서는 전자 장치(100)는 사용자의 음성에 대응되는 인디케이터와 함께 등록하였던 사용자 정보(820)를 같이 표시할 수 있다.(예를 들면, 전자 장치(100)는 '철수님 안녕하세요' 라는 텍스트를 표시하거나 사용자 정보를 음성 형태로 출력할 수 있다.) 그리고, 전자 장치(100)는 음성 인식 모드에서 사용자에게 명령을 요구하는 메시지(830)를 표시할 수 있다.(예를 들어, '말씀하세요.')
일 실시예로, 전자 장치(100)는 음성 인식 모드 상태에서 사용자의 음성의 강도가 음성입력부(110)가 감지할 수 있을 정도의 강도인지 여부를 알려주는 복수의 오브젝트(810)를 표시할 수 있다. 전자 장치(100)가 음성 인식 모드 상태일 때, 복수의 오브젝트(810)는 기설정된 크기를 가지고 기설정된 속도로 무작위로 디스플레이(130)상에서 움직일 수 있다. 전자 장치(100)는 음성입력부(110)를 통해 입력된 사용자의 음성의 강도를 분석하고, 분석 결과 값에 대응하여 복수의 오브젝트(810)의 크기 및 속도를 결정할 수 있다. 일 실시예로, 전자 장치(100)는 사용자의 음성의 강도를 분석한 결과, 사용자 음성의 강도가 음성입력부(110)가 감지할 수 있을 정도(음성입력부 기준으로 약 55 db)에 도달하지 않는 경우, 전자 장치(100)는 복수의 오브젝트(810)의 크기 및 속도는 기설정된 값을 유지하도록 할 수 있다. 그리고, 입력된 사용자의 음성이 점차 커질 경우, 즉 사용자의 음성의 강도가 커질 경우에는, 전자 장치(100)는 복수의 오브젝트(810)의 크기를 점차 크게 만들고 속도를 빠르게 할 수 있다. 그리고, 사용자의 음성이 음성입력부(110)가 감지할 수 있을 정도(마이크 기준으로 약 55 db)로 커진 경우, 전자 장치(100)는 다시 복수의 오브젝트(810)의 속도 및 크기를 사용자 음성이 입력되기 전인 기설정된 속도 및 크기로 되돌릴 수 있다.
도 8c는 본 개시의 일시예에 따른 것으로, 음성을 발화한 사용자를 인식하지 못했을 경우, 전자 장치(100)는 음성 인식 모드로 전환하지 못하고 X표시로 변형된 인디케이터(840)와 함께 '인식을 실패하였습니다'라는 텍스트를 표시할수 있음을 도시하고 있다. 즉, 전자 장치(100)가 사용자 인식을 실패했을 경우, 그에 대응되는 메시지 혹은 도형 형태를 표시할 수 있다. 물론, 전자 장치(100)가 사용자 인식을 실패할 경우 그에 대응되어 표시되는 메시지 혹은 도형 형태는 사용자가 입력부(160)를 통해 다양하게 변형할 수 있으며, 디스플레이의 일 영역 또는 전체에서 표시될 수 있다.
그리고, 전자 장치(100)는 사용자 음성의 인식을 실패했을 때, 사용자 음성이 입력되기 전에 표시하고 있던 화면을 표시할 수 있고, 다시 사용자에게 음성 인식 모드 전환을 위한 텍스트에 대해서 발화를 요구하는 UI를 표시할 수 있다.
도 9a 내지 도 9c는 본 개시의 일 실시예에 따른, 전자 장치(100)가 음성 인식 모드에서 사용자로부터 명령을 입력받고 수행하는 과정 및 음성 인식 모드에서 사용자 음성을 분석하여 인디케이터를 변경하는 과정을 설명하기 위한 도면이다.
도 9a는 전자 장치(100)의 모드가 음성 인식 모드일 때, 전자 장치(100)가 사용자가 발화한 음성 명령을 확인하기 위하여 사용자가 발화한 음성에 대응되는 텍스트를 전자 장치(100)에 표시하도록 디스플레이(130)를 제어하는 과정을 도시하는 도면이다. 일 실시예에 따르면, 사용자가 '오늘 날씨 알려줘'라고 발화했을 때, 전자 장치(100)는 '오늘 날씨 알려줘'라는 텍스트를 사용자 음성에 대응되는 인디케이터와 함께 디스플레이(130)에 표시하도록 제어한다. 따라서, 전자 장치(100)를 통해 사용자는 자신이 발화한 명령이 전자 장치(100)에 정확히 입력되었는지 여부를 확인할 수 있다.
도 9b는 전자 장치(100)가 음성 인식 모드 상태에서 사용자의 발화에 따른 명령을 수행하는 과정을 도시하고 있다. 일 실시예로, 사용자로부터 '오늘 날씨 알려줘'라는 음성 명령이 입력되면, 전자 장치(100)는 오늘 날씨에 대한 정보를 표시할 수 있다. 그리고, 사용자 음성 명령에 따른 기능의 수행화면은 디스플레이(130) 일 영역 또는 전체에 표시될 수 있다.
도 9c는 전자 장치(100)의 모드가 음성 인식 모드 일 때, 전자 장치(100)는 사용자 음성을 분석하고 분석 결과를 바탕으로 인디케이터를 변경하는 과정을 도시하고 있다. 사용자의 음성은 항상 동일 할 수 없고, 시간의 흐름에 따라 변화할 수 있기때문에 전자 장치(100)는 음성 인식 모드 일때, 사용자의 음성을 분석하고, 분석 결과에 대응되도록 인디케이터를 변경할 수 있다. 즉, 전자 장치(100)는 음성 인식 모드 동안 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터를 이루고 있는 복수의 레이어의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경할 수 있다. 일 실시예에 따르면, 전자 장치(100)가 음성 인식 모드 상태에서 입력된 사용자의 음성을 분석하였을 때, 음성의 강도 및 음도에 대응되는 분석값이 인디케이터를 등록했을 때보다 작아지고 음질에 대응되는 분석값이 달라졌을 경우, 전자 장치(100)는 인디케이터의 크기를 작게 그리고 색은 달라지게 변경할 수 있다. 도 9c에서 도시하고 있는 인디케이터(920)는 도 9a에서 도시하고 있는 인디케이터보다 크기가 작아지고 레이어의 색이 달라진 것을 볼 수 있다. 한편, 전자 장치(100)는 음성 인식 모드임을 나타내는 사용자의 음성에 대응되는 인디케이터는 변경된 것으로 표시할 수 있다.
도 10은 본 개시의 일 실시예에 따른, 전자 장치 제어 방법을 설명하기 위한 순서도이다. 도 10에 따르면, 전자 장치(100)는 사용자의 음성이 입력되면 기등록된 복수의 음성과 비교할 수 있다(S1010). 구체적으로, 전자 장치(100)는 입력된 사용자의 음성의 특성을 분석하고, 분석된 음성의 특성과 기등록된 복수의 음성의 특성을 비교할 수 있다. 일 실시예로 전자 장치(100)는 기등록된 복수의 음성 중 하나의 음성의 특성과 입력된 사용자 음성의 특성의 차이가 임계값을 넘는지 여부를 판단할 수 있다. 기등록된 음성의 특성과 사용자 음성의 특성의 차이가 임계값을 넘지 않을 경우, 전자 장치(100)는 입력된 사용자 음성과 기등록된 음성이 매칭된다고 판단할 수 있다. 그리고, 입력된 사용자 음성이 기등록된 복수의 음성 중 하나와 매칭된다고 판단하면 전자 장치(100)는 입력된 사용자 음성을 발화한 사용자를 인식할 수 있다(S1020). 그리고 전자 장치(100)는 인식된 사용자에 대응되는 인디케이터를 표시하도록 디스플레이를 제어할 수 있다(S1030).
한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (15)

  1. 전자 장치에 있어서,
    음성입력부;
    디스플레이;
    적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및
    상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하고,
    상기 인식된 사용자에 대응되는 인디케이터를 표시하도록 상기 디스플레이를 제어하는 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하도록 상기 디스플레이를 제어하고,
    상기 발화를 요구하는 UI가 표시되는 동안 상기 음성입력부를 통해 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자의 상기 인디케이터를 등록하기 위한 음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하고,
    상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 상기 메모리 중 적어도 하나에 저장하는 전자 장치.
  3. 제2항에 있어서,
    상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 하는 전자 장치.
  4. 제2항에 있어서,
    상기 프로세서는,
    상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정하는 전자 장치.
  5. 제4항에 있어서,
    상기 음도 및 강도는 상기 인디케이터의 크기, 형상, 위치 및 움직임 중 적어도 하나를 결정하고,
    상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 하는 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 상기 사용자의 음성이 상기 음성입력부를 통해 입력되면, 상기 입력된 음성을 발화한 사용자를 인식하고,
    상기 입력된 음성을 발화한 사용자가 인식되면 상기 음성 인식 모드로 전환하는 전자 장치.
  7. 제6항에 있어서,
    상기 인디케이터는 상기 사용자에 대응되면서, 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 인디케이터인 것을 특징으로 하는 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 음성 인식 모드 동안 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 상기 입력된 사용자 음성의 분석 결과에 대응되도록 상기 인디케이터를 변경하는 전자 장치.
  9. 제8항에 있어서,
    상기 프로세서는,
    상기 음성 인식 모드 동안 상기 음성입력부를 통해 입력된 상기 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경하는 전자 장치의 제어방법.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 등록된 인디케이터와 동시에 상기 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어하는 전자 장치.
  11. 전자 장치 제어 방법에 있어서,
    사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하는 단계; 및
    상기 인식된 사용자에 대응되는 인디케이터를 표시하는 단계;를 포함하는 전자 장치의 제어 방법.
  12. 제 11항에 있어서,
    상기 인디케이터를 등록하는 단계는,
    상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하는 단계;
    상기 발화를 요구하는 UI가 표시되는 동안 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자의 상기 인디케이터를 등록하기 위한음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하는 단계;
    상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 메모리 중 적어도 하나에 저장하는 단계;를 포함하는 전자 장치의 제어 방법.
  13. 제12항에 있어서,
    상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 하는 전자 장치의 제어 방법.
  14. 제12항에 있어서,
    상기 획득하는 단계는,
    상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정하는 단계;를 포함하는 전자 장치의 제어 방법.
  15. 제14항에 있어서,
    상기 음도 및 강도는 상기 인디케이터의 크기, 형상 위치 및 움직임 중 적어도 하나를 결정하고,
    상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 하는 전자 장치의 제어 방법.
PCT/KR2020/002676 2019-04-02 2020-02-25 전자 장치 및 이의 제어 방법 WO2020204357A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/492,267 US11869512B2 (en) 2019-04-02 2021-10-01 Electronic device and control method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190038290A KR20200116654A (ko) 2019-04-02 2019-04-02 전자 장치 및 이의 제어 방법
KR10-2019-0038290 2019-04-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/492,267 Continuation US11869512B2 (en) 2019-04-02 2021-10-01 Electronic device and control method therefor

Publications (1)

Publication Number Publication Date
WO2020204357A1 true WO2020204357A1 (ko) 2020-10-08

Family

ID=72666804

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/002676 WO2020204357A1 (ko) 2019-04-02 2020-02-25 전자 장치 및 이의 제어 방법

Country Status (3)

Country Link
US (1) US11869512B2 (ko)
KR (1) KR20200116654A (ko)
WO (1) WO2020204357A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270615A1 (en) * 2001-10-03 2011-11-03 Adam Jordan Global speech user interface
KR20150087025A (ko) * 2014-01-21 2015-07-29 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR20160009878A (ko) * 2014-07-17 2016-01-27 엘지전자 주식회사 모바일 디바이스 및 그 제어 방법
KR20180085931A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR20180117240A (ko) * 2017-04-18 2018-10-29 박춘하 규격화 된 명령어에 의해 구동되는 조명 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099418A (ja) 2003-09-25 2005-04-14 Casio Comput Co Ltd オブジェクト表示装置およびプログラム
JP4411590B2 (ja) 2004-01-23 2010-02-10 末雄 杉本 音声可視化方法及び該方法を記憶させた記録媒体
JP5636665B2 (ja) 2009-10-28 2014-12-10 ヤマハ株式会社 音楽情報処理装置および音楽情報処理方法
JP5707096B2 (ja) 2010-10-29 2015-04-22 京楽産業.株式会社 遊技機、制御方法および制御プログラム
KR20160012646A (ko) * 2014-07-25 2016-02-03 삼성전자주식회사 영상 표시 장치 및 그 제어 방법
KR102414122B1 (ko) 2017-04-19 2022-06-29 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270615A1 (en) * 2001-10-03 2011-11-03 Adam Jordan Global speech user interface
KR20150087025A (ko) * 2014-01-21 2015-07-29 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR20160009878A (ko) * 2014-07-17 2016-01-27 엘지전자 주식회사 모바일 디바이스 및 그 제어 방법
KR20180085931A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
KR20180117240A (ko) * 2017-04-18 2018-10-29 박춘하 규격화 된 명령어에 의해 구동되는 조명 시스템

Also Published As

Publication number Publication date
US20220020380A1 (en) 2022-01-20
US11869512B2 (en) 2024-01-09
KR20200116654A (ko) 2020-10-13

Similar Documents

Publication Publication Date Title
US11462213B2 (en) Information processing apparatus, information processing method, and program
WO2015111845A1 (en) Electronic device and voice recognition method thereof
US9253303B2 (en) Signal processing apparatus and storage medium
WO2015111850A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
WO2021118179A1 (ko) 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법
WO2019112240A1 (en) Electronic apparatus and control method thereof
EP2815290A1 (en) Method and apparatus for smart voice recognition
US9520132B2 (en) Voice recognition device and voice recognition method
US11626104B2 (en) User speech profile management
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
KR20120018686A (ko) 주변 소리 정보를 이용하여 다양한 사용자 인터페이스를 제공하는 단말기 및 그 제어방법
WO2020204357A1 (ko) 전자 장치 및 이의 제어 방법
US10764678B2 (en) Throwable microphone with virtual assistant interface
WO2019107973A1 (ko) 오디오 신호의 음량에 따라 설정된 해상도에 기반하여, 오디오 신호를 처리하는 방법 및 그 전자 장치
WO2022114516A1 (ko) 전자 장치 및 이의 제어 방법
JP2004015250A (ja) 携帯端末装置
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2021025340A1 (en) Display apparatus, audio apparatus and method for controlling thereof
KR102178174B1 (ko) 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법
CN117813814A (zh) Web会议系统、终端装置以及web会议方法
WO2022177063A1 (ko) 전자 장치 및 이의 제어 방법
CN111050261A (zh) 听力补偿方法、装置及计算机可读存储介质
WO2021080190A1 (ko) 음성 서비스 제공 방법 및 장치
JPWO2019216053A1 (ja) 対話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20781888

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20781888

Country of ref document: EP

Kind code of ref document: A1