WO2022102908A1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
WO2022102908A1
WO2022102908A1 PCT/KR2021/009654 KR2021009654W WO2022102908A1 WO 2022102908 A1 WO2022102908 A1 WO 2022102908A1 KR 2021009654 W KR2021009654 W KR 2021009654W WO 2022102908 A1 WO2022102908 A1 WO 2022102908A1
Authority
WO
WIPO (PCT)
Prior art keywords
electronic device
information
voice recognition
voice
utterance
Prior art date
Application number
PCT/KR2021/009654
Other languages
English (en)
French (fr)
Inventor
황도형
신종영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/484,516 priority Critical patent/US12087283B2/en
Publication of WO2022102908A1 publication Critical patent/WO2022102908A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Definitions

  • the present disclosure relates to an electronic device providing a voice recognition function and a control method thereof, and more particularly, to share information with other electronic devices to estimate a utterance position of a user's voice, and to use one electronic device based on the utterance position To an electronic device for activating a voice recognition function and a method for controlling the same.
  • the user uses a specific voice command as a trigger voice (or wake-up word), and does not perform voice recognition on the user's uttered voice before the trigger voice is input.
  • a specific voice command as a trigger voice (or wake-up word)
  • the electronic device of voice recognition function can be activated.
  • various voice recognition devices in the same space may have the same trigger voice, and in this case, there is a problem in that multiple electronic devices may be simultaneously activated by a user's trigger voice utterance.
  • the voice recognition function for one device having the highest input sound pressure is controlled to be activated, so that one electronic device located at the closest distance from the user is activated.
  • the present disclosure is to solve the above problems, and an object of the present disclosure is to share location information of each of various electronic devices that provide a voice recognition function and direction information on the location of a user voice utterance between the devices.
  • An object of the present invention is to provide an electronic device for estimating , and activating a voice recognition function of one electronic device located at the closest distance from a user's voice utterance position, and a method for controlling the same.
  • an electronic device for providing a voice recognition function includes a communication interface for performing communication with another electronic device, and location information of the electronic device and the other electronic device.
  • a memory for storing a sound
  • a microphone for detecting a sound using a plurality of channels
  • a processor for performing a voice recognition operation on a user uttered voice received through the microphone when a voice recognition function is activated, the processor comprising: When a voice is confirmed through the microphone, the utterance direction of the trigger voice is checked, the communication interface is controlled so that information on the identified utterance direction is shared with the other electronic device, and utterance direction information received from another electronic device and estimating a utterance position based on the identified utterance direction, and activating a voice recognition function in the electronic device based on the stored position information and the estimated utterance position.
  • the processor may activate the voice recognition function.
  • the memory may store map information about an environment in which the electronic device and the other electronic device are located, and the stored location information may be location information on a map in the map information.
  • the map information may be generated by a robot cleaner capable of mapping the surrounding environment.
  • the processor checks the sound pressure of the trigger voice, controls the communication interface to share information on the confirmed sound pressure with information on the confirmed direction of speech, the estimated speech position and a plurality of A voice recognition function in the electronic device may be activated based on sound pressure information in each electronic device.
  • the processor may preferentially compare the plurality of electronic devices based on the distance between the utterance positions, and if the distance difference is smaller than a preset value, determine a device for activating the voice recognition function based on the sound pressure information. there is.
  • the processor performs voice recognition for a user request included in a user's uttered voice, determines whether the electronic device can perform an operation corresponding to the user's request, and An operation corresponding to the user request may be performed based on the determination result.
  • the processor may perform the operation corresponding to the user request.
  • the processor transmits a control signal for controlling the electronic device to perform the operation corresponding to the user request to another electronic device. can be controlled
  • the processor controls the communication interface to transmit the control signal to another electronic device closest to the estimated utterance position among a plurality of other electronic devices capable of performing an operation corresponding to the user request. can do.
  • a control method of an electronic device providing a voice recognition function storing location information of the electronic device and another electronic device, and using a microphone for detecting sound using a plurality of channels
  • the trigger voice is confirmed through the steps of confirming the utterance direction of the trigger voice, sharing information on the confirmed utterance direction with another electronic device, the utterance direction information received from another electronic device and the confirmed utterance direction estimating a speech location based on the stored location information and activating a speech recognition function in the electronic device based on the estimated speech location, and when the speech recognition function is activated, a user speech voice received through the microphone and performing a voice recognition operation for the .
  • the step of activating the voice recognition function may include activating the voice recognition function when it is confirmed that the distance between the estimated speech position and the electronic device is smaller than the distance between another electronic device and the estimated speech location.
  • the storing of the location information may include storing map information about an environment in which the electronic device and the other electronic device are located, and the stored location information may be location information on a map in the map information.
  • the map information may be generated by a robot cleaner capable of mapping the surrounding environment.
  • control method further comprising the step of confirming the sound pressure of the trigger voice, the step of sharing, sharing the information on the confirmed sound pressure with the information on the confirmed direction of speech, the voice Activating the recognition function may include activating the voice recognition function in the electronic device based on the estimated speech position and sound pressure information from each of the plurality of electronic devices.
  • the step of activating the voice recognition function may include preferentially comparing based on the distances between the plurality of electronic devices and the utterance positions, and if the difference between the distances is smaller than a preset value, performing the voice recognition function based on the sound pressure information You can decide which device to use.
  • the performing of the voice recognition operation further includes performing voice recognition for a user request included in a user's uttered voice, and determining whether the electronic device is capable of performing an operation corresponding to the user's request. and an operation corresponding to the user request may be performed based on the determination result.
  • the method may further include transmitting a control signal for controlling the electronic device to perform the operation corresponding to the user request to another electronic device.
  • the transmitting of the control signal to another electronic device includes controlling the control to another electronic device that is closest to the estimated utterance position among a plurality of other electronic devices capable of performing the operation corresponding to the user request. signal can be transmitted.
  • the program includes: storing location information of the electronic device and other electronic devices; When a trigger voice is identified through a microphone that detects a sound using estimating a speech position based on information and the identified speech direction; activating a speech recognition function in the electronic device based on the stored location information and the estimated speech location; and when the speech recognition function is activated, the and performing a voice recognition operation on a user's uttered voice received through a microphone.
  • FIG. 1 is a diagram schematically illustrating a voice recognition system according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram for explaining an operation of estimating, by an electronic device, an utterance position of a user's voice according to an embodiment of the present disclosure
  • FIG. 5 is a diagram for explaining an operation of determining an electronic device in which a voice recognition function is activated from among various electronic devices existing in the same space based on map information on an environment in which a user's voice is uttered.
  • FIG. 6 is a diagram for explaining an operation of determining an electronic device in which a voice recognition function is activated according to a type of a user request included in a user uttered voice.
  • FIG. 7 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.
  • each step should be understood as non-limiting unless the preceding step must be logically and temporally performed before the subsequent step. In other words, except for the above exceptional cases, even if the process described as the subsequent step is performed before the process described as the preceding step, the essence of the disclosure is not affected, and the scope of rights should also be defined regardless of the order of the steps.
  • expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
  • first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The above terms may be used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present disclosure, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
  • the present specification describes components necessary for the description of each embodiment of the present disclosure, the present disclosure is not necessarily limited thereto. Accordingly, some components may be changed or omitted, and other components may be added. In addition, they may be distributed and arranged in different independent devices.
  • FIG. 1 is a diagram schematically illustrating a voice recognition system according to an embodiment of the present disclosure.
  • a voice recognition system 1000 may include various types of electronic devices 100 that provide a voice recognition function.
  • the voice recognition function may include a function in which the electronic device 100 converts an acoustic signal acquired through a sound sensor such as a microphone into words or sentences.
  • the voice recognition function performs a task of removing noise after extracting a voice signal, and then, the voice recognition can be performed by extracting features of the voice signal and comparing it with the voice model database (DB).
  • DB voice model database
  • the electronic device 100 performs an operation corresponding to a user request (eg, a command for controlling the electronic device) included in the user's uttered voice or provides various conveniences for living, such as providing answers to information requested by the user. service can be provided.
  • a user request eg, a command for controlling the electronic device
  • various conveniences for living such as providing answers to information requested by the user. service can be provided.
  • Each electronic device 100 may perform a voice recognition function after confirming a trigger voice. For example, the electronic device 100 may activate the voice recognition function of the electronic device by the user uttering the trigger voice without performing voice recognition on the user's spoken voice before the trigger voice is input.
  • the trigger voice is a calling word for activating the voice recognition function, and may be a specific word or a sentence.
  • the trigger voice may be the name of an electronic device or an artificial intelligence assistant.
  • Such a trigger voice may be preset in the electronic device, and may be changed or set.
  • the user may activate the voice recognition function of the electronic device 100 by uttering the trigger voice “Hi Bixby”.
  • a plurality of electronic devices providing a voice recognition function may be disposed in a space where the user is located.
  • the electronic device providing the voice recognition function may be various devices such as a smart speaker, a TV, an air conditioner, an air purifier, a washing machine, a refrigerator, a robot cleaner, and a kitchen appliance, but is not limited thereto.
  • a user When a user utters a trigger voice, the user may have an intention to receive a service through a voice recognition function through an electronic device located at a generally closest distance.
  • a voice recognition function Through an electronic device located at a generally closest distance.
  • various voice recognition devices disposed in the same space have the same trigger voice, there may be a problem in that a plurality of electronic devices are simultaneously activated by a user's trigger voice utterance.
  • the present disclosure provides a voice recognition system capable of estimating a position of a user's voice utterance and activating a voice recognition function of one electronic device located at the closest distance from the position of a user's voice utterance, and an electronic device configuring the same.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include a communication interface 110 , a memory 120 , a processor 130 , and a microphone 140 .
  • the communication interface 110 may transmit/receive various data by performing communication with an external device.
  • the electronic device 100 may share various information with other electronic devices through the communication interface 110 . A detailed description of information sharing between electronic devices will be described later.
  • the communication interface 110 can communicate with an external device through a local area network (LAN), an Internet network, and a mobile communication network, as well as BT (Bluetooth), BLE (Bluetooth Low Energy), It can communicate with an external device through various communication methods such as WI-FI (Wireless Fidelity), WI-FI Direct (Wireless Fidelity Direct), Zigbee, NFC, and the like.
  • the communication interface 110 may include various communication modules for performing network communication.
  • the communication interface 110 may include a Bluetooth chip, a Wi-Fi chip, a wireless communication chip, and the like.
  • the memory 120 is electrically connected to the processor 130 and may store data necessary for various embodiments of the present disclosure.
  • the memory 120 may store commands or data related to at least one other component of the electronic device 100 .
  • the memory 120 may be implemented as a non-volatile memory, a volatile memory, a flash-memory, a hard disk drive (HDD), or a solid state drive (SSD).
  • the memory 120 is accessed by the processor 130 , and reading/writing/modification/deletion/update of data by the processor 130 may be performed.
  • the term "memory” refers to a memory 120, a ROM (not shown) in the processor 130, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, micro SD). card, memory stick).
  • programs and data for configuring various screens to be displayed on the display area of the display 150 may be stored in the memory 120 .
  • the memory 120 may store location information of the electronic device 100 and location information of other electronic devices. Specifically, the memory 120 may store location information of the electronic device 100 and other electronic devices included in the map information by storing map information on the environment in which the electronic device 100 is located. A detailed description of the map information stored in the memory 120 will be described later with reference to FIG. 5 .
  • the microphone 140 may receive sound information generated around the electronic device 100 .
  • the microphone 140 may receive a user uttered voice.
  • the user uttered voice is a voice for executing a specific function of the electronic device 100 , for example, a voice for activating a voice recognition function or executing an operation corresponding to a user request, such as a command for controlling the electronic device.
  • the microphone 140 has a plurality of channels, and through this, the direction in which the voice input to the microphone 140 is uttered can be recognized.
  • the microphone 140 may detect the direction of an input sound source through SSL (Sound Source Localization) to which a sound source direction detection technology using a delay of arrival (DOA) of a sound source input to each channel is applied.
  • SSL Sound Source Localization
  • DOA delay of arrival
  • the microphone 140 includes two channels, a direction in a 180 degree range can be detected, and when three or more channels are included, a direction in a 360 degree range can be detected.
  • the generation direction of the input sound source using the difference between the distance between a plurality of channels included in the microphone 140 and the time at which the sound source signal is input to each channel can recognize For example, when the first channel and the second channel are sequentially arranged with a certain interval, when the sound source signal is sequentially input to the first channel and the second channel, the generation direction of the sound source is more can be perceived as close.
  • the processor 130 is electrically connected to the communication interface 110 , the memory 120 , and the microphone 140 , and may control the overall operation of the electronic device 100 .
  • the processor 130 may be implemented as a digital signal processor (DSP), a microprocessor, or a time controller (TCON) for processing a digital signal.
  • DSP digital signal processor
  • MCU micro controller unit
  • MPU micro processing unit
  • AP application processor
  • CP communication processor
  • ARM processor Artificial Intelligence
  • AI Artificial Intelligence
  • the processor 130 is a SoC (System on Chip) processing algorithm is embedded ), may be implemented in large scale integration (LSI), or implemented in the form of a field programmable gate array (FPGA)
  • the processor 130 executes computer executable instructions stored in the memory 120 . By doing so, various functions can be performed.
  • the processor 130 may identify an utterance direction of the trigger voice based on the received signal.
  • the processor 130 controls the communication interface 110 to share the confirmed utterance direction information with other electronic devices, and the utterance direction information received from other electronic devices and locations of electronic devices stored in the memory 120 .
  • the utterance position of the trigger voice can be estimated. A detailed description related to sharing information about the direction of speech and estimating the location of a trigger voice will be described later with reference to FIG. 4 .
  • the processor 130 activates the voice recognition function in the electronic device 100 based on the location information stored in the memory 120 and the estimated speech location, and when the speech recognition function is activated, performs a speech recognition operation for the user's spoken voice. can be done For example, if it is determined that the electronic device 100 is located at the closest distance from the estimated utterance position compared to other electronic devices, the processor 130 activates the voice recognition function of the electronic device 100 and the user's utterance A voice recognition operation may be performed in response to a user request included in the voice.
  • a method of determining an electronic device to activate a voice recognition function among a plurality of electronic devices and a detailed description related to an operation for performing voice recognition according to the method will be described later with reference to FIGS. 4 to 6 .
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a communication interface 110 , a memory 120 , a processor 130 , a microphone 140 , a display 150 , a speaker 160 , and an input interface 170 . can do.
  • a communication interface 110 can do.
  • a memory 120 can store data.
  • a processor 130 can perform arithmetic and logic operations.
  • the display 150 may display various images.
  • the image may be a concept including at least one of a still image and a moving image.
  • the display 150 may be implemented in various forms such as liquid crystal display (LCD), organic light-emitting diode (OLED), liquid crystal on silicon (LCoS), digital light processing (DLP), and quantum dot (QD) display panel.
  • LCD liquid crystal display
  • OLED organic light-emitting diode
  • LCDoS liquid crystal on silicon
  • DLP digital light processing
  • QD quantum dot
  • the speaker 160 may output various types of audio.
  • the electronic device 100 may provide an answer to the information requested by the user in the form of audio through the speaker 160 .
  • the input interface 170 may receive various user commands.
  • the input interface 170 may receive a user command for controlling the electronic device 100 .
  • the input interface 170 may include a microphone 140 that receives a user's spoken voice, and may include a display 150 that receives a user command through a touch screen.
  • FIG. 4 is a diagram for explaining an operation of estimating, by an electronic device, an utterance position of a user's voice according to an embodiment of the present disclosure
  • each electronic device 100 will be referred to as a first electronic device 100 - 1 and a second electronic device 100 - 2 .
  • the user may utter a trigger voice for activating a voice recognition function of any one of the electronic devices 100 - 1 and 100 - 2 .
  • the first electronic device 100 - 1 and the second electronic device 100 - 2 disposed in the same space may receive a trigger voice.
  • the first electronic device 100 - 1 and the second electronic device 100 - 2 may detect the utterance direction of the trigger voice through microphones respectively provided therein.
  • the first electronic device 100-1 may detect that the trigger voice is uttered in the first direction d1 based on the position of the first electronic device 100-1
  • the second The electronic device 100 - 2 may detect that the trigger voice is uttered in the second direction d2 based on the position of the second electronic device 100 - 2 . Since direction sensing through a microphone including a plurality of channels has been described above, a redundant description will be omitted.
  • the first electronic device 100 - 1 and the second electronic device 100 - 2 may share information on the utterance direction of the trigger voice detected at each location through each communication interface.
  • a plurality of electronic devices 100 performing communication using the same network network may share utterance direction information through a corresponding network network, and may transmit information through a communication protocol such as User Datagram Protocol (UDP).
  • UDP User Datagram Protocol
  • each electronic device 100 may store map information about an environment in which the electronic device 100 is located, that is, location information of each of the plurality of electronic devices 100 .
  • map information may be provided from an electronic device capable of mapping the surrounding environment, such as a robot cleaner.
  • a robot cleaner capable of mapping the surrounding environment
  • Each electronic device 100 synthesizes the utterance direction information sensed by itself, the utterance direction information shared from other electronic devices, and the position information of each electronic device 100 to calculate a contact point for the utterance position of the trigger voice.
  • the ignition location can be estimated.
  • Each electronic device 100 may calculate a distance from the estimated utterance position of each electronic device 100 based on the estimated utterance position information and the position information of each electronic device 100 , and the calculated distance By comparing , the electronic device 100 located closest to the ignition position among the plurality of electronic devices 100 may be identified.
  • the first electronic device 100-1 is configured based on the shared utterance direction information and location information of the first electronic device 100-1 and the second electronic device 100-2. to estimate the utterance position of the trigger voice, calculate and compare the distances at which each of the first electronic device 100-1 and the second electronic device 100-2 are located from the estimated utterance position, and compare the first electronic device 100- It is determined that 1) is located closer to the utterance position than the second electronic device 100 - 2 , and the voice recognition function may be activated.
  • the second electronic device 100-2 determines that the second electronic device 100-2 is located farther from the utterance position of the trigger voice than the first electronic device 100-1, so that the voice recognition function is performed. may not be activated.
  • the electronic device 100 calculates the distance from the estimated utterance position and compares it with distance information calculated and shared by other electronic devices. You may decide whether or not it is applicable.
  • the present invention is not limited thereto, and even in the case of three or more electronic devices, the ignition position is estimated through the same operation, and each electronic device determines that the electronic device is the closest to the ignition position. If it is determined that the electronic device is located in the street, the voice recognition function may be activated.
  • FIG. 5 is a diagram for explaining an operation of determining an electronic device in which a voice recognition function is activated from among various electronic devices existing in the same space based on map information on an environment in which a user's voice is uttered.
  • various electronic devices are disposed in the user's surrounding environment, and location information for each electronic device may be provided to each electronic device in the form of location information on a map.
  • the map information may be generated by a robot cleaner capable of mapping the surrounding environment and transmitted to respective electronic devices.
  • the robot cleaner drives in an indoor environment, maps the indoor structure through automatic mapping technology, and recognizes electronic devices placed in the room using an object recognition function, thereby generating map information including location information of each electronic device.
  • the robot cleaner may map an indoor structure through a sensor that detects a distance from an object, or may recognize an indoor structure mapping and electronic devices disposed in the room by using a surrounding environment image obtained through a camera.
  • an electronic device such as a TV or an air conditioner
  • the robot cleaner may store location information where the identified electronic device is located in map information on which the indoor structure is mapped.
  • the user may directly input the location of the electronic device and reflect it on the map information.
  • each electronic device 100 may store map information about an environment in which the electronic device 100 is located, that is, location information of each of the plurality of electronic devices 100 .
  • map information may be provided from an electronic device capable of mapping the surrounding environment, such as a robot cleaner.
  • Each electronic device 100 synthesizes the utterance direction information sensed by itself, the utterance direction information shared from other electronic devices, and the location information of each electronic device 100 included in the map information, By calculating , it is possible to estimate the utterance position of the user's uttered voice.
  • Each electronic device 100 may calculate a distance from the estimated utterance position of each electronic device 100 based on the estimated utterance position information and the position information of each electronic device 100 , and the calculated distance By comparing , the electronic device 100 located closest to the utterance position among the plurality of electronic devices 100 may be determined as the electronic device for activating the voice recognition function.
  • the voice recognition function of the speaker may be activated.
  • the number of the plurality of electronic devices is not limited thereto.
  • FIG. 6 is a diagram for explaining an operation of determining an electronic device in which a voice recognition function is activated according to a type of a user request included in a user uttered voice.
  • FIG. 6 illustrates two different types of electronic devices 100 positioned at different distances from the user.
  • each electronic device will be referred to as a first electronic device 100 - 1 and a second electronic device 100 - 2 to be described.
  • the first electronic device 100 - 1 may be a speaker
  • the second electronic device 100 - 2 may be a display device.
  • the voice recognition function of the first electronic device 100 - 1 located at a relatively short distance from the uttered position may be activated by the trigger voice uttered by the user.
  • the voice recognition function When the voice recognition function is activated, the first electronic device 100 - 1 may perform voice recognition for a user request included in the user's uttered voice.
  • the user may utter a voice including a user request to show a movie after the trigger voice utterance.
  • the first electronic device 100-1 may receive a user's request by performing voice recognition on “show me a movie”, which is a user's uttered voice.
  • the first electronic device 100 - 1 since the first electronic device 100 - 1 does not include a display capable of displaying an image, it may be determined that an operation corresponding to the received user request cannot be performed.
  • the electronic device 100 may transmit a control signal for controlling the electronic device 100 to perform the operation corresponding to the user's request to another electronic device.
  • the electronic device may transmit a control signal to another electronic device that is closest to the estimated utterance position among a plurality of other electronic devices capable of performing an operation corresponding to the user's request.
  • the first electronic device 100 - 1 includes a display for displaying an image among electronic devices located nearby based on shared information, and among electronic devices including the display. It may be determined that the electronic device located closest to the ignition position is the second electronic device 100 - 2 . Based on the determination result, the first electronic device 100-1 sends a control signal for controlling the second electronic device 100-2 to perform an operation corresponding to the user's request to the second electronic device 100-2 may be transmitted, and the second electronic device 100 - 2 may receive the control signal and perform an operation corresponding to the user's request.
  • FIG. 7 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may store map information on the surrounding environment ( S710 ). Thereafter, when the trigger voice is confirmed (S720), the utterance direction of the trigger voice through SSL may be confirmed (S730), and information on the utterance direction may be shared between devices in the same network (S740).
  • the electronic device 100 may check whether there are a plurality of electronic devices that have received the trigger voice based on the shared information ( S750 ). If it is determined that there is no other electronic device that has received the trigger voice, the electronic device 100 may activate the voice recognition function of the electronic device 100 .
  • the utterance position of the trigger voice is estimated through contact calculation based on the shared information (S760), and a suitable electronic device, that is, the closest distance from the utterance position
  • the voice recognition function of the electronic device located closest to the utterance position among the electronic devices capable of performing an operation corresponding to the user's request may be activated (S770).
  • FIG. 8 is a diagram for explaining a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the electronic device providing the voice recognition function may store location information of the electronic device and other electronic devices ( S810 ).
  • the electronic device may store map information about an environment in which the electronic device and other electronic devices are located, and in this case, the location information may be location information on a map in the map information.
  • the map information may be information generated by a robot cleaner capable of mapping the surrounding environment and provided to the electronic device, and may include location information of each of various electronic devices that provide a voice recognition function.
  • the electronic device may check the utterance direction of the trigger voice ( S820 ).
  • the trigger voice is a calling word for activating the voice recognition function, and may be a specific word or sentence.
  • the electronic device may share information on the confirmed utterance direction with another electronic device (S830).
  • the electronic device may estimate the utterance position based on the utterance direction information received from the other electronic device and the confirmed utterance direction ( S840 ).
  • the electronic device may activate a voice recognition function in the electronic device based on the stored location information and the estimated speech location ( S850 ).
  • the electronic device may activate the voice recognition function.
  • the accuracy of the service providing the voice recognition function through the electronic device located at the closest distance to the utterance of the user's voice may be increased, and user convenience may be improved.
  • the electronic device for activating the voice recognition function may be determined based on the sound pressure input to the electronic device.
  • the electronic device may check the sound pressure of the trigger voice, and may share information on the confirmed sound pressure together with the information on the confirmed direction of speech.
  • the electronic device may activate a voice recognition function in the electronic device based on the estimated utterance position and sound pressure information from each of the plurality of electronic devices.
  • the electronic device may preferentially compare based on the distance between the plurality of electronic devices and the utterance location, and if the distance difference is less than a preset value, the electronic device may determine a device to perform the voice recognition function based on sound pressure information .
  • the voice recognition function of the electronic device having a large input sound pressure may be activated.
  • the electronic device may perform a voice recognition operation on the user's uttered voice received through the microphone (S860).
  • the electronic device may determine the electronic device for which the voice recognition function is activated according to the type of user request included in the user's uttered voice.
  • the electronic device determines whether the electronic device can perform an operation corresponding to the user request by performing voice recognition on a user request included in the user's uttered voice, and an operation corresponding to the user request based on the determination result can be performed.
  • the electronic device may transmit a control signal for controlling the electronic device to perform the operation corresponding to the user's request to another electronic device.
  • the electronic device may transmit a control signal to another electronic device that is closest to the estimated utterance position among a plurality of other electronic devices capable of performing an operation corresponding to the user's request.
  • user convenience can be improved by selecting an electronic device closest to a user's location from among electronic devices capable of performing an operation corresponding to the user's request and providing a service corresponding to the user's request.
  • computer instructions for performing a processing operation in an electronic device may be stored in a non-transitory computer readable medium.
  • the specific device performs the processing operation of the electronic device according to the various embodiments described above.
  • the non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, and the like, and can be read by a device.
  • a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB (Universal Serial Bus), memory card, ROM, and the like.
  • the method according to various embodiments may be provided by being included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product may be distributed in the form of a machine-readable storage medium (eg, compact disc read only memory (CD-ROM)) or online through an application store (eg, Play StoreTM).
  • an application store eg, Play StoreTM
  • at least a part of the computer program product may be temporarily stored or temporarily created in a storage medium such as a server device of a manufacturer, a server device of an application store, or a memory of a relay server.
  • the program for controlling the electronic device according to the present disclosure may be provided to various electronic devices capable of performing a voice recognition function.
  • various electronic devices capable of performing a voice recognition function.
  • it may be applied to various devices such as a smart speaker, a TV, an air conditioner, an air purifier, a washing machine, a refrigerator, a robot cleaner, and a kitchen appliance, but is not limited thereto.
  • a device provided with a program for controlling an electronic device according to the present disclosure can share information by performing communication with other electronic devices, and based on this, the operation of the electronic device described above, such as estimating a speech location and activating a voice recognition function can be performed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 인식 기능을 제공하는 전자 장치가 개시된다. 본 전자 장치는 다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스, 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 메모리, 복수의 채널을 이용하여 소리를 감지하는 마이크 및 음성 인식 기능이 활성화되면 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서를 포함하고, 프로세서는, 트리거 음성이 마이크를 통하여 확인되면 트리거 음성의 발화 방향을 확인하고, 확인된 발화 방향에 대한 정보가 다른 전자 장치와 공유되도록 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 확인된 발화 방향에 기초하여 발화 위치를 추정하고, 저장된 위치 정보와 추정된 발화 위치에 기초하여 전자 장치에서의 음성 인식 기능을 활성화한다.

Description

전자 장치 및 이의 제어 방법
본 개시는 음성 인식 기능을 제공하는 전자 장치 및 이의 제어 방법에 관한 것으로, 보다 상세하게는 다른 전자 장치들과 정보를 공유하여 사용자 음성의 발화 위치를 추정하고, 발화 위치에 기초하여 하나의 전자 장치의 음성 인식 기능을 활성화하는 전자 장치 및 이의 제어 방법에 관한 것이다.
최근에는 음성 인식 기술의 발달로, 사용자 음성에 포함된 사용자 요청을 수행하는 인공지능 어시스턴트(예로, 빅스비TM, 어시스턴트TM, 알렉사TM 등)를 이용하여 서비스를 제공하는 다양한 전자 장치들이 제공되고 있다.
사용자는 특정 음성 명령어를 트리거 음성(또는 웨이크-업 워드(wake-up word))으로 사용하여, 트리거 음성이 입력되기 전에는 사용자 발화 음성에 대한 음성 인식을 수행하지 않고, 트리거 음성을 발화함으로써 전자 장치의 음성 인식 기능을 활성화시킬 수 있다. 한편, 같은 공간에 있는 다양한 음성 인식 장치들은 동일한 트리거 음성을 가지는 경우가 있으며, 이 경우 사용자의 트리거 음성 발화에 의해 여러 대의 전자 장치가 동시에 활성화될 수 있는 문제점이 존재하였다.
이에, 종래에는 입력 음압이 가장 높은 하나의 장치에 대한 음성 인식 기능이 활성화되도록 제어하여, 사용자로부터 가장 가까운 거리에 위치하는 하나의 전자 장치가 활성화되도록 하였다.
다만, 각각의 음성 인식 장치의 하드웨어 성능 차이 및 주변 잡음(noise) 영향에 따라, 사용자 음성이 발화된 위치에서 가장 가까운 장치가 아닌 다른 장치가 활성화되는 경우가 발생하는 문제가 있었다.
상술한 정보는 본 개시의 이해를 돕기 위한 배경기술로서만 제공 된다. 위의 내용 중 어느 부분이 본 개시와 관련하여 선행 기술로 적용될 수 있는지 여부에 대한 결정이 내려지거나 주장이 이루어진 것은 아니다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 음성 인식 기능을 제공하는 다양한 전자 장치들 각각의 위치 정보 및 사용자 음성 발화 위치에 대한 방향 정보를 장치들 간에 공유함으로써 사용자 음성 발화 위치를 추정하고, 사용자 음성 발화 위치로부터 가장 가까운 거리에 위치한 하나의 전자 장치의 음성 인식 기능을 활성화하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
본 개시의 추가적인 목적은 이후 상세한 설명을 통해 개시될 것이며, 상세한 설명으로부터 명백하거나, 개시된 실시예를 실시함으로써 학습될 수 있다.
이상과 같은 목적을 달성하기 위해 본 개시의 일 실시예에 따른 음성 인식 기능을 제공하기 위한 전자 장치는, 다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스, 상기 전자 장치 및 상기 다른 전자 장치의 위치 정보를 저장하는 메모리, 복수의 채널을 이용하여 소리를 감지하는 마이크 및 음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서를 포함하고, 상기 프로세서는, 트리거 음성이 상기 마이크를 통하여 확인되면 상기 트리거 음성의 발화 방향을 확인하고, 상기 확인된 발화 방향에 대한 정보가 상기 다른 전자 장치와 공유되도록 상기 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하고, 상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화한다.
이 경우, 상기 프로세서는, 상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 상기 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 작은 것으로 확인되면 상기 음성 인식 기능을 활성화할 수 있다.
한편, 상기 메모리는, 상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고, 상기 저장된 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보일 수 있다.
이 경우, 상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성될 수 있다.
한편, 상기 프로세서는, 상기 트리거 음성의 음압을 확인하고, 상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하도록 상기 통신 인터페이스를 제어하고, 상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
이 경우, 상기 프로세서는, 상기 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 활성화할 장치를 결정할 수 있다.
한편, 상기 프로세서는, 상기 음성 인식 기능이 활성화되면, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하고, 상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행할 수 있다.
이 경우, 상기 프로세서는, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능하다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행할 수 있다.
한편, 상기 프로세서는,상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하도록 상기 통신 인터페이스를 제어할 수 있다.
이 경우, 상기 프로세서는, 상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송하도록 상기 통신 인터페이스를 제어할 수 있다.
한편, 본 개시의 일 실시예에 따른 음성 인식 기능을 제공하는 전자 장치의 제어 방법은, 상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계, 복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계, 상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계, 상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계 및 음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계를 포함한다.
이 경우, 상기 음성 인식 기능을 활성화하는 단계는, 상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 작은 것으로 확인되면 상기 음성 인식 기능을 활성화할 수 있다.
한편, 상기 위치 정보를 저장하는 단계는, 상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고, 상기 저장된 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보일 수 있다.
이 경우, 상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성될 수 있다.
한편, 상기 제어 방법은, 상기 트리거 음성의 음압을 확인하는 단계를 더 포함하고, 상기 공유하는 단계는, 상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하고, 상기 음성 인식 기능을 활성화하는 단계는, 상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
이 경우, 상기 음성 인식 기능을 활성화하는 단계는, 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 수행할 장치를 결정할 수 있다.
한편, 상기 음성 인식 동작을 수행하는 단계는, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하는 단계를 더 포함하고, 상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행할 수 있다.
이 경우, 상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하는 단계를 더 포함할 수 있다.
이 경우, 상기 제어 신호를 다른 전자 장치로 전송하는 단계는, 상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송할 수 있다.
한편, 본 개시의 일 실시예에 따른 전자 장치를 제어하기 위한 프로그램이 저장된 컴퓨터 판독 가능 기록 매체에 있어서, 상기 프로그램은, 상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계, 복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계, 상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계, 상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계 및 음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계를 포함한다.
본 개시의 다른 실시예, 효과 및 특징은 이후 상세한 설명 및 도면을 통해 통상의 기술자에게 명백히 이해될 수 있을 것이며, 본 개시의 다양한 실시예를 개시한다.
도 1은 본 개시의 일 실시예에 따른 음성 인식 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 사용자 음성의 발화 위치를 추정하는 동작을 설명하기 위한 도면이다.
도 5는 사용자 음성이 발화된 환경에 대한 지도 정보에 기초하여, 같은 공간 내에 존재하는 다양한 전자 장치들 중 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 6은 사용자 발화 음성에 포함된 사용자 요청의 종류에 따라 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 순서도이다.
도 8은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게, 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.
본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
그리고, 본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.
나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니다.
이하에서는 도면을 참고하여 본 개시에 대해 상세하게 설명하도록 한다.
도 1은 본 개시의 일 실시예에 따른 음성 인식 시스템을 개략적으로 설명하기 위한 도면이다.
도 1을 참고하면, 음성 인식 시스템(1000)은 음성 인식 기능을 제공하는 다양한 종류의 전자 장치(100)를 포함할 수 있다.
음성 인식 기능이란, 전자 장치(100)가 마이크와 같은 소리 센서를 통해 획득하는 음향학적 신호를 단어나 문장으로 변환시키는 기능을 포함할 수 있다. 일반적으로, 음성 인식 기능은 음성 신호를 추출한 후 잡음을 제거하는 작업을 수행하게 되며, 이후 음성 신호의 특징을 추출하여 음성 모델 데이터베이스(DB)와 비교하는 방식으로 음성 인식을 수행할 수 있다.
이에 따라, 전자 장치(100)는 사용자 발화 음성에 포함된 사용자 요청(예컨대, 전자 장치를 제어하기 위한 명령)에 대응되는 동작을 하거나, 사용자가 요청한 정보에 대한 답변을 제공하는 등의 다양한 생활 편의 서비스를 제공할 수 있다.
각각의 전자 장치(100)는 트리거 음성을 확인한 후 음성 인식 기능을 수행할 수 있다. 예를 들어, 전자 장치(100)는 트리거 음성이 입력되기 전에는 사용자 발화 음성에 대한 음성 인식을 수행하지 않고, 사용자가 트리거 음성을 발화함으로써 전자 장치의 음성 인식 기능을 활성화시킬 수 있다.
여기에서, 트리거 음성은 음성 인식 기능을 활성화시키기 위한 호출어로, 특정 단어 또는 문장일 수 있다. 예를 들어, 트리거 음성은 전자 장치 또는 인공지능 어시스턴트의 이름 등이 사용될 수 있다. 이러한 트리거 음성은 전자 장치에 미리 설정되어 있을 수 있고, 변경 또는 설정이 가능할 수 있다.
도 1을 참고하면, 사용자는 트리거 음성인 “하이 빅스비”를 발화함으로써 전자 장치(100)의 음성 인식 기능을 활성화시킬 수 있다. 이 경우, 사용자가 위치한 공간에는 음성 인식 기능을 제공하는 복수의 전자 장치가 배치되어 있을 수 있다. 음성 인식 기능을 제공하는 전자 장치는 스마트 스피커, TV, 에어컨, 공기청정기, 세탁기, 냉장고, 로봇 청소기, 주방 기구 등의 다양한 기기일 수 있으며, 이에 한정되는 것은 아니다.
사용자가 트리거 음성을 발화하는 경우, 일반적으로 가장 가까운 거리에 위치한 전자 장치를 통해 음성 인식 기능을 통한 서비스를 제공받고자 하는 의도를 가질 수 있다. 다만, 같은 공간 내에 배치된 다양한 음성 인식 장치들이 동일한 트리거 음성을 가지면, 사용자의 트리거 음성 발화에 의해 여러 대의 전자 장치가 동시에 활성화되는 문제가 있을 수 있다.
이에, 본 개시는 사용자 음성 발화 위치를 추정하여, 사용자 음성 발화 위치로부터 가장 가까운 거리에 위치한 하나의 전자 장치의 음성 인식 기능을 활성화할 수 있는 음성 인식 시스템 및 이를 구성하는 전자 장치를 제공한다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참고하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130) 및 마이크(140)를 포함할 수 있다.
통신 인터페이스(110)는 외부 장치와 통신을 수행하여 다양한 데이터를 송수신할 수 있다. 예를 들어, 전자 장치(100)는 통신 인터페이스(110)를 통해 다른 전자 장치들과 다양한 정보를 공유할 수 있다. 전자 장치 간의 정보 공유와 관련한 상세한 설명은 후술하기로 한다.
한편, 통신 인터페이스(110)는 근거리 통신망(LAN: Local Area Network), 인터넷 네트워크, 이동 통신 네트워크를 통해 외부 장치와 통신을 수행할 수 있음은 물론, BT(Bluetooth), BLE(Bluetooth Low Energy), WI-FI(Wireless Fidelity), WI-FI Direct(Wireless Fidelity Direct), Zigbee, NFC 등과 같은 다양한 통신 방식 등을 통해 외부 장치와 통신을 수행할 수 있다. 이를 위해, 통신 인터페이스(110)는 네트워크 통신을 수행하기 위한 다양한 통신 모듈을 포함할 수 있다. 예를 들어, 통신 인터페이스(110)는 블루투스 칩, 와이파이 칩, 무선 통신 칩 등을 포함할 수 있다.
메모리(120)는 프로세서(130)와 전기적으로 연결되며, 본 개시의 다양한 실시예를 위해 필요한 데이터를 저장할 수 있다.
메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령어 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이(150)의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.
메모리(120)는 전자 장치(100)의 위치 정보 및 다른 전자 장치의 위치 정보를 저장할 수 있다. 구체적으로, 메모리(120)는 전자 장치(100)가 위치하는 환경에 대한 지도 정보를 저장함으로써 지도 정보 내에 포함된 전자 장치(100) 및 다른 전자 장치의 위치 정보를 저장할 수 있다. 메모리(120)에 저장되는 지도 정보와 관련한 상세한 설명은 도 5에서 후술하기로 한다.
마이크(140)는 전자 장치(100) 주변에서 발생하는 소리 정보를 수신할 수 있다. 예를 들어, 마이크(140)는 사용자 발화 음성을 수신할 수 있다. 여기에서, 사용자 발화 음성은 전자 장치(100)의 특정 기능을 실행시키기 위한 음성, 예컨대 음성 인식 기능을 활성화시키거나 전자 장치를 제어하기 위한 명령과 같은 사용자 요청에 대응되는 동작을 실행시키기 위한 음성일 수 있다.
마이크(140)는 복수의 채널을 가지고, 이를 통해 마이크(140)에 입력된 음성이 발화된 방향을 인식할 수 있다. 예를 들어, 마이크(140)는 각각의 채널에 입력된 음원의 DOA(Delay of Arrival)를 이용한 음원 방향 감지 기술을 적용한 SSL(Sound Source Localization)을 통해 입력된 음원의 방향을 감지할 수 있다. 이 경우, 마이크(140)가 2개의 채널을 포함할 경우 180도 범위의 방향을 감지할 수 있고, 3개 이상의 채널을 포함하는 경우 360도 범위의 방향을 감지할 수 있다.
SSL을 통해 음원 방향을 감지하는 방법의 일 예로, 마이크(140)에 포함된 복수의 채널 간 이격된 거리 및 각각의 채널에 음원 신호가 입력된 시간 사이의 차이를 이용하여 입력된 음원의 발생 방향을 인식할 수 있다. 예를 들어, 제1 채널과 제2 채널이 일정 간격을 가지고 순차적으로 배치된 경우, 음원 신호가 제1 채널과 제2 채널에 순차적으로 입력되면, 음원의 발생 방향은 제1 채널의 위치와 더 가까운 것으로 인식할 수 있다.
프로세서(130)는 통신 인터페이스(110), 메모리(120) 및 마이크(140)와 전기적으로 연결되며, 전자 장치(100)의 전반적인 동작을 제어할 수 있다.
본 개시의 일 실시 예에 따라, 프로세서(130)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서, AI(Artificial Intelligence) 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(130)는 메모리(120)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다.
프로세서(130)는 마이크(140)를 통해 트리거 음성이 수신되면, 수신된 신호에 기초하여 트리거 음성의 발화 방향을 확인할 수 있다. 그리고, 프로세서(130)는 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하도록 통신 인터페이스(110)를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보와 메모리(120)에 저장된 전자 장치들의 위치 정보를 종합적으로 고려하여, 트리거 음성의 발화 위치를 추정할 수 있다. 발화 방향에 대한 정보 공유 및 트리거 음성의 발화 위치 추정과 관련한 상세한 설명은 도 4에서 후술하기로 한다.
프로세서(130)는 메모리(120)에 저장된 위치 정보 및 추정된 발화 위치에 기초하여 전자 장치(100)에서의 음성 인식 기능을 활성화하고, 음성 인식 기능이 활성화되면 사용자 발화 음성에 대한 음성 인식 동작을 수행할 수 있다. 예를 들어, 프로세서(130)는 전자 장치(100)가 다른 전자 장치들에 비해 추정된 발화 위치로부터 가장 가까운 거리에 위치한 것으로 판단되면, 전자 장치(100)의 음성 인식 기능을 활성화하고, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식 동작을 수행할 수 있다. 복수의 전자 장치 중 음성 인식 기능을 활성화할 전자 장치를 결정하는 방법 및 이에 따라 음성 인식을 수행하는 동작과 관련한 상세한 설명은 도 4 내지 도 6에서 후술하기로 한다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 3을 참고하면, 전자 장치(100)는 통신 인터페이스(110), 메모리(120), 프로세서(130), 마이크(140), 디스플레이(150), 스피커(160) 및 입력 인터페이스(170)를 포함할 수 있다. 도 3에 도시된 구성 중 도 2에 도시된 구성과 중복되는 부분에 대해서는 자세한 설명을 생략하도록 한다.
디스플레이(150)는 다양한 영상을 표시할 수 있다. 여기에서, 영상은 정지 영상 또는 동영상 중 적어도 하나를 포함하는 개념일 수 있다. 디스플레이(150)는 LCD(liquid crystal display), OLED(organic light-emitting diode), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing), QD(quantum dot) 디스플레이 패널 등과 같은 다양한 형태로 구현될 수 있다.
스피커(160)는 다양한 오디오를 출력할 수 있다. 예를 들어, 전자 장치(100)는 스피커(160)를 통해 사용자가 요청한 정보에 대한 답변을 오디오 형태로 제공할 수 있다.
입력 인터페이스(170)는 다양한 사용자 명령을 입력 받을 수 있다. 예를 들어, 입력 인터페이스(170)는 전자 장치(100)를 제어하기 위한 사용자 명령을 입력 받을 수 있다. 입력 인터페이스(170)는 사용자 발화 음성을 입력 받는 마이크(140)를 포함할 수 있으며, 터치 스크린을 통해 사용자 명령을 입력 받는 디스플레이(150)를 포함할 수도 있다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 사용자 음성의 발화 위치를 추정하는 동작을 설명하기 위한 도면이다.
도 4는 사용자로부터 서로 다른 거리에 위치한 두 대의 전자 장치(100)를 도시한 것이다. 이하, 편의상 각각의 전자 장치를 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)로 명명하여 설명하도록 한다.
본 개시의 일 예로, 사용자는 전자 장치(100-1, 100-2) 중 어느 하나의 음성 인식 기능을 활성화하기 위한 트리거 음성을 발화할 수 있다. 이 경우, 같은 공간 내에 배치된 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)는 트리거 음성을 수신할 수 있다.
제1 전자 장치(100-1) 및 제2 전자 장치(100-2)는 각각 구비한 마이크를 통해 트리거 음성의 발화 방향을 감지할 수 있다. 도 4를 참고하면, 제1 전자 장치(100-1)는 제1 전자 장치(100-1)의 위치를 기준으로 제1 방향(d1)에서 트리거 음성이 발화된 것을 감지할 수 있고, 제2 전자 장치(100-2)는 제2 전자 장치(100-2)의 위치를 기준으로 제2 방향(d2)에서 트리거 음성이 발화된 것을 감지할 수 있다. 복수의 채널을 포함하는 마이크를 통한 방향 감지에 관하여 앞서 설명하였으므로, 중복되는 설명은 생략한다.
제1 전자 장치(100-1) 및 제2 전자 장치(100-2)는 각각의 위치에서 감지한 트리거 음성의 발화 방향에 대한 정보를 각각의 통신 인터페이스를 통해 서로 공유할 수 있다. 예를 들어, 동일 네트워크망을 사용하여 통신을 수행하는 복수의 전자 장치(100)는 해당 네트워크망을 통해 발화 방향 정보를 공유할 수 있으며, UDP(User Datagram Protocol)와 같은 통신 규약을 통해 정보를 공유할 수 있다.
또한, 각각의 전자 장치(100)는 전자 장치(100)가 위치하는 환경에 대한 지도 정보, 즉 복수의 전자 장치(100) 각각의 위치 정보를 저장할 수 있다. 이와 같은 지도 정보는 로봇 청소기와 같이 주변 환경을 맵핑 가능한 전자 장치로부터 제공될 수 있다. 이와 관련하여, 로봇 청소기를 통해 복수의 전자 장치(100) 각각의 위치 정보를 매핑하는 과정에 대한 상세한 설명은 도 5에서 후술하기로 한다.
각각의 전자 장치(100)는 스스로 감지한 발화 방향 정보, 다른 전자 장치로부터 공유된 발화 방향 정보 및 각각의 전자 장치(100)의 위치 정보를 종합하여, 발화 위치에 대한 접점을 산출함으로써 트리거 음성의 발화 위치를 추정할 수 있다.
각각의 전자 장치(100)는 추정된 발화 위치 정보와 각각의 전자 장치(100)의 위치 정보를 통해 각각의 전자 장치(100)의 추정된 발화 위치로부터의 거리를 산출할 수 있으며, 산출한 거리를 비교함으로써 복수의 전자 장치(100) 중 발화 위치와 가장 가까운 거리에 위치한 전자 장치(100)를 확인할 수 있다.
예를 들어, 도 4를 참고하면, 제1 전자 장치(100-1)는 공유된 발화 방향 정보 및 제1 전자 장치(100-1)와 제2 전자 장치(100-2)의 위치 정보에 기초하여 트리거 음성의 발화 위치를 추정하고, 추정된 발화 위치로부터 제1 전자 장치(100-1) 및 제2 전자 장치(100-2) 각각이 위치한 거리를 산출하여 비교함으로써 제1 전자 장치(100-1)가 제2 전자 장치(100-2)보다 발화 위치와 더 가까운 곳에 위치하는 것으로 판단하여 음성 인식 기능을 활성화할 수 있다.
반면, 제2 전자 장치(100-2)는 제2 전자 장치(100-2)가 제1 전자 장치(100-1)보다 트리거 음성의 발화 위치와 더 먼 곳에 위치하는 것으로 판단하여, 음성 인식 기능을 활성화하지 않을 수 있다.
한편, 전자 장치(100)는 추정된 발화 위치로부터의 거리를 산출한 후, 다른 전자 장치에서 산출되어 공유 받은 거리 정보와 비교함으로써 정보가 공유된 전자 장치들 중 발화 위치로부터 가장 가까운 곳에 위치한 장치에 해당하는지 여부를 판단할 수도 있다.
도 4에서는 전자 장치(100)가 두 대인 것으로 도시하였으나 이에 한정되는 것은 아니며, 3대 이상의 전자 장치인 경우에도 동일한 동작을 통해 발화 위치를 추정하고, 각각의 전자 장치는 자기가 발화 위치로부터 가장 가까운 거리에 위치한 전자 장치인 것으로 판단되면 음성 인식 기능을 활성화할 수 있다.
도 5는 사용자 음성이 발화된 환경에 대한 지도 정보에 기초하여, 같은 공간 내에 존재하는 다양한 전자 장치들 중 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 5를 참고하면, 사용자의 주변 환경에는 다양한 전자 장치들이 배치되어 있으며, 각각의 전자 장치들에 대한 위치 정보는 지도 상의 위치 정보 형태로 각각의 전자 장치들에 제공될 수 있다.
예를 들어, 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성되어 각각의 전자 장치들로 전송될 수 있다. 로봇 청소기는 실내 환경을 주행하며 자동 맵핑 기술을 통해 실내 구조를 맵핑하고, 사물 인식 기능을 활용하여 실내에 배치된 전자 장치들을 인식함으로써, 각각의 전자 장치들의 위치 정보를 포함하는 지도 정보를 생성할 수 있다.
구체적으로, 로봇 청소기는 사물과의 거리를 감지하는 센서를 통해 실내 구조를 맵핑하거나, 카메라를 통해 획득한 주변 환경 이미지를 이용하여 실내 구조 맵핑 및 실내에 배치된 전자 장치들을 인식할 수 있다. 로봇 청소기는 카메라를 통해 주변 환경에 대한 이미지를 획득, 분석하여 이미지로부터 TV, 에어컨과 같은 전자 장치가 식별되면 실내 구조를 맵핑한 지도 정보에 식별된 전자 장치가 위치한 위치 정보를 저장할 수 있다.
또한, 사용자는 전자 장치의 위치를 직접 입력하여 지도 정보에 반영할 수도 있다.
또한, 각각의 전자 장치(100)는 전자 장치(100)가 위치하는 환경에 대한 지도 정보, 즉 복수의 전자 장치(100) 각각의 위치 정보를 저장할 수 있다. 이와 같은 지도 정보는 로봇 청소기와 같이 주변 환경을 맵핑 가능한 전자 장치로부터 제공될 수 있다.
각각의 전자 장치(100)는 스스로 감지한 발화 방향 정보, 다른 전자 장치들로부터 공유된 발화 방향 정보 및 지도 정보에 포함된 각각의 전자 장치(100)의 위치 정보를 종합하여, 발화 위치에 대한 접점을 산출함으로써 사용자 발화 음성의 발화 위치를 추정할 수 있다.
각각의 전자 장치(100)는 추정된 발화 위치 정보와 각각의 전자 장치(100)의 위치 정보를 통해 각각의 전자 장치(100)의 추정된 발화 위치로부터의 거리를 산출할 수 있으며, 산출한 거리를 비교함으로써 복수의 전자 장치(100) 중 발화 위치와 가장 가까운 거리에 위치한 전자 장치(100)를 음성 인식 기능을 활성화할 전자 장치로 결정할 수 있다.
예를 들어, 도 5를 참고하면, 복수의 전자 장치(100-1, 100-2, 100-3, 100-4, 100-5, 100-6) 중 사용자로부터 가장 가까운 거리에 위치한 전자 장치(100-1)인 스피커의 음성 인식 기능이 활성화될 수 있다. 복수의 전자 장치의 개수는 이에 한정되지 않는다.
도 6은 사용자 발화 음성에 포함된 사용자 요청의 종류에 따라 음성 인식 기능이 활성화되는 전자 장치를 결정하는 동작을 설명하기 위한 도면이다.
도 6을 참고하면, 도 6은 사용자로부터 서로 다른 거리에 위치한 서로 다른 종류의 전자 장치(100) 두 대를 도시한 것이다. 이하, 편의상 각각의 전자 장치를 제1 전자 장치(100-1) 및 제2 전자 장치(100-2)로 명명하여 설명하도록 한다.
본 개시의 일 예로, 제1 전자 장치(100-1)는 스피커일 수 있고, 제2 전자 장치(100-2)는 디스플레이 장치일 수 있다.
이 경우, 사용자가 발화한 트리거 음성에 의해, 발화 위치로부터 상대적으로 가까운 거리에 있는 제1 전자 장치(100-1)의 음성 인식 기능이 활성화될 수 있다. 제1 전자 장치(100-1)는 음성 인식 기능이 활성화되면, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행할 수 있다.
도 6을 참고하면, 사용자는 트리거 음성 발화 후, 영화를 보여달라는 사용자 요청을 포함하는 음성을 발화할 수 있다. 제1 전자 장치(100-1)는 사용자 발화 음성인 “영화 보여줘”에 대한 음성 인식을 수행하여, 사용자의 요청을 입력 받을 수 있다. 이 경우, 제1 전자 장치(100-1)는 영상을 표시할 수 있는 디스플레이를 포함하지 않으므로, 입력 받은 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단할 수 있다.
전자 장치(100)는 전자 장치(100)가 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송할 수 있다. 이 경우, 전자 장치는 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 제어 신호를 전송할 수 있다.
예를 들어, 도 6을 참고하면, 제1 전자 장치(100-1)는 공유된 정보에 기초하여 주변에 위치한 전자 장치 중 영상을 표시하기 위한 디스플레이를 포함하며, 디스플레이를 포함하는 전자 장치들 중 발화 위치로부터 가장 가까운 곳에 위치한 전자 장치가 제2 전자 장치(100-2)인 것으로 판단할 수 있다. 제1 전자 장치(100-1)는 판단 결과에 기초하여, 제2 전자 장치(100-2)가 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 제2 전자 장치(100-2)로 전송할 수 있고, 제2 전자 장치(100-2)는 제어 신호를 전송 받아 사용자 요청에 대응되는 동작을 수행할 수 있다.
도 7은 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 순서도이다.
도 7을 참고하면, 본 개시의 일 예에 따른 전자 장치(100)는 주변 환경에 대한 지도 정보를 저장(S710)할 수 있다. 이후, 트리거 음성이 확인(S720)되면, SSL을 통한 트리거 음성의 발화 방향을 확인(S730)하고, 발화 방향에 대한 정보를 동일 네트워크 망 장치 간 공유(S740)할 수 있다.
전자 장치(100)는 공유된 정보를 바탕으로, 트리거 음성을 수신한 전자 장치가 복수개인지 여부를 확인(S750)할 수 있다. 전자 장치(100)는 트리거 음성을 수신한 다른 전자 장치가 없다고 판단되면, 전자 장치(100)의 음성 인식 기능을 활성화할 수 있다.
한편, 동일한 트리거 음성을 수신한 장치가 복수개인 것으로 판단되면, 공유된 정보를 바탕으로 접점 산출을 통한 트리거 음성의 발화 위치를 추정(S760)하고, 적합한 전자 장치, 즉 발화 위치로부터 가장 가까운 거리에 있거나, 사용자 요청에 대응되는 동작을 수행 가능한 전자 장치 중 발화 위치로부터 가장 가까운 거리에 위치한 전자 장치의 음서 인식 기능을 활성화(S770)할 수 있다.
도 8은 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.
도 8을 참고하면, 음성 인식 기능을 제공하는 전자 장치는 전자 장치 및 다른 전자 장치의 위치 정보를 저장(S810)할 수 있다.
전자 장치는 전자 장치 및 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장할 수 있고, 이 경우 위치 정보는 지도 정보 내의 지도 상의 위치 정보일 수 있다. 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성되어 전자 장치로 제공된 정보일 수 있으며, 음성 인식 기능을 제공하는 다양한 전자 장치 각각의 위치 정보를 포함할 수 있다.
그리고, 전자 장치는 복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 트리거 음성의 발화 방향을 확인(S820)할 수 있다.
트리거 음성은 트리거 음성은 음성 인식 기능을 활성화시키기 위한 호출어로, 특정 단어 또는 문장일 수 있다.
그리고, 전자 장치는 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유(S830)할 수 있다.
그리고, 전자 장치는 다른 전자 장치로부터 수신한 발화 방향 정보 및 확인된 발화 방향에 기초하여 발화 위치를 추정(S840)할 수 있다.
이에 따라, 다양한 전자 장치로부터 공유된 정보를 종합적으로 고려함으로써 사용자 음성의 발화 위치 추정의 정확도를 향상시킬 수 있다.
그리고, 전자 장치는 저장된 위치 정보와 추정된 발화 위치에 기초하여 전자 장치에서의 음성 인식 기능을 활성화(S850)할 수 있다.
이 경우, 전자 장치는 추정된 발화 위치와 전자 장치 사이의 거리가 다른 전자 장치와 추정된 발화 위치 사이의 거리보다 가까운 것으로 확인되면 음성 인식 기능을 활성화할 수 있다.
이에 따라, 사용자 음성의 발화 위치와 가장 가까운 거리에 위치한 전자 장치를 통해 음성 인식 기능을 제공하는 서비스의 정확도를 높일 수 있으며, 사용자 편의를 향상시킬 수 있다.
한편, 복수의 전자 장치가 발화 위치로부터 동일한 거리 범위 내에 있다고 판단되는 경우, 전자 장치에 입력된 음압의 크기를 통해 음성 인식 기능을 활성화할 전자 장치를 결정할 수 있다.
전자 장치는 트리거 음성의 음압을 확인할 수 있으며, 확인된 음압에 대한 정보를 확인된 발화 방향에 대한 정보와 함께 공유할 수 있다.
이 경우, 전자 장치는 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
예를 들어, 전자 장치는 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 수행할 장치를 결정할 수 있다.
이에 따라, 복수의 전자 장치가 발화 위치로부터 동일한 거리 범위 내에 있다고 판단되는 경우 입력 음압이 큰 전자 장치에서의 음성 인식 기능을 활성화할 수 있다.
그리고, 전자 장치는 음성 인식 기능이 활성화되면 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행(S860)할 수 있다.
한편, 전자 장치는 사용자 발화 음성에 포함된 사용자 요청의 종류에 따라 음성 인식 기능이 활성화되는 전자 장치를 결정할 수 있다.
예를 들어, 전자 장치는 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하여 전자 장치가 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하고, 판단 결과에 기초하여 사용자 요청에 대응되는 동작을 수행할 수 있다.
전자 장치가 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 전자 장치는 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송할 수 있다.
이 경우, 전자 장치는 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 제어 신호를 전송할 수 있다.
이에 따라, 사용자 요청에 대응되는 동작을 수행 가능한 전자 장치 중 사용자 위치로부터 가장 가까운 전자 장치를 선택하여 사용자 요청에 대응되는 서비스를 제공할 수 있도록 하여 사용자 편의를 향상시킬 수 있다.
한편, 상술한 본 개시의 다양한 실시예에 따른 전자 장치에서의 처리 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 전자 장치의 처리 동작을 상술한 특정 기기가 수행하도록 한다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB(Universal Serial Bus), 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버 장치, 어플리케이션 스토어의 서버 장치, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
본 개시에 따른 전자 장치를 제어하기 위한 프로그램은 음성 인식 기능을 수행 가능한 다양한 전자 장치에 제공될 수 있다. 예를 들어, 스마트 스피커, TV, 에어컨, 공기청정기, 세탁기, 냉장고, 로봇 청소기, 주방 기구 등의 다양한 기기에 적용될 수 있으며, 이에 한정되는 것은 아니다. 본 개시에 따른 전자 장치를 제어하기 위한 프로그램을 제공 받은 기기는 다른 전자 장치들과 통신을 수행함으로써 정보를 공유할 수 있고, 이에 기초하여 발화 위치 추정, 음성 인식 기능 활성화 등 앞서 설명한 전자 장치의 동작을 수행할 수 있다.
이상에서는 본 개시의 다양한 실시예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 음성 인식 기능을 제공하기 위한 전자 장치에 있어서,
    다른 전자 장치와 통신을 수행하기 위한 통신 인터페이스;
    상기 전자 장치 및 상기 다른 전자 장치의 위치 정보를 저장하는 메모리;
    복수의 채널을 이용하여 소리를 감지하는 마이크; 및
    음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 프로세서;를 포함하고,
    상기 프로세서는,
    트리거 음성이 상기 마이크를 통하여 확인되면 상기 트리거 음성의 발화 방향을 확인하고,
    상기 확인된 발화 방향에 대한 정보가 상기 다른 전자 장치와 공유되도록 상기 통신 인터페이스를 제어하고, 다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하고,
    상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 상기 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 작은 것으로 확인되면 상기 음성 인식 기능을 활성화하는, 전자 장치.
  3. 제1항에 있어서,
    상기 메모리는,
    상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고,
    상기 저장된 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보인, 전자 장치.
  4. 제3항에 있어서,
    상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성된, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 트리거 음성의 음압을 확인하고,
    상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하도록 상기 통신 인터페이스를 제어하고,
    상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 복수의 전자 장치와 발화 위치 간의 거리를 기초로 우선적으로 비교하고, 거리의 차이가 기설정된 값보다 작으면 음압 정보를 기초로 음성 인식 기능을 활성화할 장치를 결정하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    상기 음성 인식 기능이 활성화되면, 사용자 발화 음성에 포함된 사용자 요청에 대한 음성 인식을 수행하고,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능한지 여부를 판단하고,
    상기 판단 결과에 기초하여 상기 사용자 요청에 대응되는 동작을 수행하는, 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행 가능하다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하는, 전자 장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 전자 장치가 상기 사용자 요청에 대응되는 동작을 수행할 수 없다고 판단되면, 상기 사용자 요청에 대응되는 동작을 수행하도록 제어하는 제어 신호를 다른 전자 장치로 전송하도록 상기 통신 인터페이스를 제어하는, 전자 장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 사용자 요청에 대응되는 동작을 수행 가능한 복수의 다른 전자 장치들 중 상기 추정된 발화 위치로부터 가장 가까운 거리에 있는 다른 전자 장치로 상기 제어 신호를 전송하도록 상기 통신 인터페이스를 제어하는, 전자 장치.
  11. 음성 인식 기능을 제공하는 전자 장치의 제어 방법에 있어서,
    상기 전자 장치 및 다른 전자 장치의 위치 정보를 저장하는 단계;
    복수의 채널을 이용하여 소리를 감지하는 마이크를 통하여 트리거 음성이 확인되면 상기 트리거 음성의 발화 방향을 확인하는 단계;
    상기 확인된 발화 방향에 대한 정보를 다른 전자 장치와 공유하는 단계;
    다른 전자 장치로부터 수신한 발화 방향 정보 및 상기 확인된 발화 방향에 기초하여 발화 위치를 추정하는 단계;
    상기 저장된 위치 정보와 상기 추정된 발화 위치에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는 단계; 및
    음성 인식 기능이 활성화되면 상기 마이크를 통하여 수신한 사용자 발화 음성에 대한 음성 인식 동작을 수행하는 단계;를 포함하는, 제어 방법.
  12. 제11항에 있어서,
    상기 음성 인식 기능을 활성화하는 단계는,
    상기 추정된 발화 위치와 상기 전자 장치 사이의 거리가 다른 전자 장치와 상기 추정된 발화 위치 사이의 거리보다 작은 것으로 확인되면 상기 음성 인식 기능을 활성화하는, 제어 방법.
  13. 제11항에 있어서,
    상기 위치 정보를 저장하는 단계는,
    상기 전자 장치 및 상기 다른 전자 장치가 위치하는 환경에 대한 지도 정보를 저장하고,
    상기 저장된 위치 정보는 상기 지도 정보 내의 지도 상의 위치 정보인, 제어 방법.
  14. 제13항에 있어서,
    상기 지도 정보는 주변 환경을 맵핑 가능한 로봇 청소기에서 생성된, 제어 방법.
  15. 제11항에 있어서,
    상기 트리거 음성의 음압을 확인하는 단계;를 더 포함하고,
    상기 공유하는 단계는,
    상기 확인된 음압에 대한 정보를 상기 확인된 발화 방향에 대한 정보와 함께 공유하고,
    상기 음성 인식 기능을 활성화하는 단계는,
    상기 추정된 발화 위치 및 복수의 전자 장치 각각에서의 음압 정보에 기초하여 상기 전자 장치에서의 음성 인식 기능을 활성화하는, 제어 방법.
PCT/KR2021/009654 2020-11-12 2021-07-26 전자 장치 및 이의 제어 방법 WO2022102908A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/484,516 US12087283B2 (en) 2020-11-12 2021-09-24 Electronic apparatus and controlling method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0151247 2020-11-12
KR1020200151247A KR20220064768A (ko) 2020-11-12 2020-11-12 전자 장치 및 이의 제어 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/484,516 Continuation US12087283B2 (en) 2020-11-12 2021-09-24 Electronic apparatus and controlling method thereof

Publications (1)

Publication Number Publication Date
WO2022102908A1 true WO2022102908A1 (ko) 2022-05-19

Family

ID=81601359

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/009654 WO2022102908A1 (ko) 2020-11-12 2021-07-26 전자 장치 및 이의 제어 방법

Country Status (2)

Country Link
KR (1) KR20220064768A (ko)
WO (1) WO2022102908A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125241A (ko) * 2017-05-15 2018-11-23 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
JP6433903B2 (ja) * 2013-08-29 2018-12-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
KR20190107622A (ko) * 2019-09-02 2019-09-20 엘지전자 주식회사 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치
KR20200049020A (ko) * 2018-10-31 2020-05-08 삼성전자주식회사 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
KR20200109954A (ko) * 2019-03-15 2020-09-23 삼성전자주식회사 IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6433903B2 (ja) * 2013-08-29 2018-12-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
KR20180125241A (ko) * 2017-05-15 2018-11-23 네이버 주식회사 사용자의 발화 위치에 따른 디바이스 제어
KR20200049020A (ko) * 2018-10-31 2020-05-08 삼성전자주식회사 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치
KR20200109954A (ko) * 2019-03-15 2020-09-23 삼성전자주식회사 IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치
KR20190107622A (ko) * 2019-09-02 2019-09-20 엘지전자 주식회사 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치

Also Published As

Publication number Publication date
KR20220064768A (ko) 2022-05-19

Similar Documents

Publication Publication Date Title
WO2018174437A1 (en) Electronic device and controlling method thereof
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2020189955A1 (en) Method for location inference of iot device, server, and electronic device supporting the same
WO2018070639A1 (ko) 전자 장치 및 전자 장치의 오디오 신호 처리 방법
WO2019135514A1 (en) Mobile home robot and controlling method of the mobile home robot
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
WO2013039306A1 (en) Method and apparatus for providing information based on a location
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2020122653A1 (en) Electronic apparatus and controlling method thereof
WO2019156339A1 (ko) 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
WO2019088610A1 (ko) 도어의 개폐 상태를 감지하기 위한 센싱 장치 및 그 센싱 장치를 제어하는 방법
WO2018038381A1 (ko) 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법
WO2021071271A1 (en) Electronic apparatus and controlling method thereof
WO2019221479A1 (ko) 공기 조화 장치 및 이의 제어 방법
WO2020080638A1 (ko) 전자장치 및 그 제어방법
WO2022102908A1 (ko) 전자 장치 및 이의 제어 방법
WO2019004762A1 (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
EP3555883A1 (en) Security enhanced speech recognition method and device
WO2021251780A1 (en) Systems and methods for live conversation using hearing devices
WO2020159111A1 (ko) 엣지 컴퓨팅 환경에서 데이터를 전처리하는 전자 장치 및 그 제어 방법
US12087283B2 (en) Electronic apparatus and controlling method thereof
WO2014178491A1 (ko) 발화 인식 방법 및 장치
WO2022108190A1 (ko) 전자장치 및 그 제어방법
WO2022065733A1 (ko) 전자장치 및 그 제어방법
WO2022097970A1 (ko) 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21892078

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21892078

Country of ref document: EP

Kind code of ref document: A1