WO2017135531A1 - 음성인식 장치 및 방법, 음성인식시스템 - Google Patents

음성인식 장치 및 방법, 음성인식시스템 Download PDF

Info

Publication number
WO2017135531A1
WO2017135531A1 PCT/KR2016/008592 KR2016008592W WO2017135531A1 WO 2017135531 A1 WO2017135531 A1 WO 2017135531A1 KR 2016008592 W KR2016008592 W KR 2016008592W WO 2017135531 A1 WO2017135531 A1 WO 2017135531A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice recognition
voice
recognition device
service
voice signal
Prior art date
Application number
PCT/KR2016/008592
Other languages
English (en)
French (fr)
Inventor
최명순
이종혁
Original Assignee
삼성전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자(주) filed Critical 삼성전자(주)
Priority to US16/073,864 priority Critical patent/US10997973B2/en
Publication of WO2017135531A1 publication Critical patent/WO2017135531A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • the present invention relates to a voice recognition device and method and a voice recognition system capable of extending the voice recognition range and providing more advanced services.
  • speech recognition technology detects the analog voice of a user through a microphone, and processes the detected voice by sending some data of the client to the server and then processing the NLU (Natural Language Understanding), DM (Dialog Manager), etc.
  • NLU Natural Language Understanding
  • DM Dialog Manager
  • Microphones are required for voice detection. At this time, the recognition distance limit between the microphone and the user occurs.
  • efforts have been made to develop various algorithm technologies, and to increase the distance of recognition by physically mounting a large number of microphones. It can also input voice through a remote control microphone that connects directly to the device.
  • spatial efforts of speech recognition also occur in this effort. For example, if a voice recognition device is placed in a room, the living room is not recognized even if a voice command is requested due to a recognition distance constraint.
  • voice recognition devices have different services.
  • smart TVs have a lot of support for recognition services for broadcast programs and video contents
  • smart phones have different service domains such as support for personalized contents such as music services. Therefore, the user has no choice but to request a service for each voice recognition device in a different manner for many voice recognition devices.
  • An object of the present invention is to overcome the limitations of speech recognition distance caused by the physical limitations of the microphone of the speech recognition device and to expand the spatial range of speech recognition to provide users with various speech recognition services in more places.
  • the present invention provides a recognition apparatus and method.
  • Another object of the present invention is to share the functions of a plurality of voice recognition devices each having a unique voice recognition service function to provide a more diverse voice recognition service to a single voice recognition device in a wider space than the current recognition range regardless of the place. It is to provide a voice recognition device and method that can be.
  • a voice recognition device including: a microphone for receiving a voice signal from a spoken voice of a user; Communication unit for communicating with at least one external voice recognition device; A voice recognition unit for identifying a wake-up word included in the voice signal; And a controller for transmitting the voice signal to an external voice recognition device corresponding to the identified wake-up word.
  • the communication unit may receive a result of performing a request service included in the voice signal from an external voice recognition device that has transmitted the voice signal.
  • the controller may further include an output unit configured to provide a user with a service performance result transmitted from the external voice recognition device.
  • the communication unit may receive a voice signal from the at least one external voice recognition device.
  • the controller may perform a request service included in a voice signal received from the at least one external voice recognition device.
  • the controller may transmit the performed service result to an external voice recognition device that has transmitted the voice signal.
  • the controller may determine the output unit capability of the external voice recognition device that has transmitted the voice signal, and transmit a service performance result suitable for the output unit capability.
  • the controller transmits the voice signal to a server through the communication unit when the voice recognition unit cannot determine the requested service information included in the voice signal, and performs the request service information or request service included in the voice signal from the server. The result can be received.
  • the at least one external voice recognition device may be connected to the Internet of Things.
  • the microphone for receiving a voice signal from the user's spoken voice; Communication unit for communicating with at least one external voice recognition device; A voice recognition unit for identifying a request service included in the voice signal; And a controller for transmitting the voice signal by selecting an external voice recognition device capable of performing the request service among the at least one external voice recognition device when the identified request service cannot be performed.
  • the apparatus may further include a storage configured to store service domain information and device capability information of the at least one external voice recognition device.
  • the controller may select an external voice recognition device capable of processing the request service based on at least one of the service domain information and the device capability information.
  • the communication unit may receive a voice signal from the at least one external voice recognition device.
  • the controller may perform a request service included in the voice signal.
  • the controller may transmit the service performance result to an external voice recognition device that has transmitted the voice signal.
  • a voice recognition device includes a microphone for receiving a voice signal from a spoken voice of a user; Communication unit for communicating with at least one external voice recognition device; A voice recognition unit for identifying a request service included in the voice signal; And a controller for transmitting the voice signal to the at least one external voice recognition device when the requested service cannot be identified from the voice signal.
  • the communication unit may receive a voice signal from the at least one external voice recognition device.
  • the voice recognition unit may identify a request service included in the voice signal received from the at least one external voice recognition device, and the controller may determine whether the identified request service can be performed.
  • the controller may perform a request service when the request service can be performed, and transmit a service execution result to an external voice recognition device that has transmitted the voice signal.
  • a voice recognition system includes a plurality of voice recognition devices configured in a network cluster, wherein a first voice recognition device among the plurality of voice recognition devices receives a voice signal from a user's spoken voice, Grasp information included in the voice signal, select a second voice recognition device from among the plurality of voice recognition devices based on the identified information, and transmit the voice signal to the selected second voice recognition device, The second voice recognition device may perform a request service included in the received voice signal and transmit the received voice signal to the first voice recognition device.
  • the selection of the second voice recognition device may be performed based on at least one of a wakeup word and request service information included in the voice signal.
  • the plurality of voice recognition devices may include a storage unit for storing at least one of device capability information and service domain information of all voice recognition devices connected through a network.
  • a voice recognition method comprising: receiving a voice signal from a spoken voice of a user by a first voice recognition device among a plurality of voice recognition devices connected through a network; Identifying, by a first voice recognition device, information included in the voice signal; Selecting, by a first voice recognition device, a second voice recognition device from among a plurality of voice recognition devices based on information included in the voice signal; Transmitting the voice signal to the selected second voice recognition device; Performing, by the second voice recognition device, a request service included in the voice signal; And transmitting, by the second voice recognition device, the result of performing the request service to the first voice recognition device.
  • the first voice recognition device may further include providing a service performance result transmitted from the second voice recognition device to a user.
  • the plurality of voice recognition devices may further include storing at least one of device capability information and service domain information of all voice recognition devices connected through a network.
  • the first voice recognition device may select a voice recognition device capable of performing the request service based on at least one of service domain information and device capability information.
  • the second speech recognition apparatus If the second speech recognition apparatus cannot determine the information included in the received speech signal, the second speech recognition apparatus transmits the speech signal to the server, and the server identifies the request service included in the speech signal and receives the result of the execution. can do.
  • a recording medium is characterized by recording a program for performing the voice recognition method.
  • IoT Internet of Things
  • a device having a small domain of a service provided through voice recognition can provide a service of a rich domain by sharing a function between the devices. Therefore, a customer who wants to purchase a voice recognition device will prefer a device capable of supporting network cluster configuration between the voice recognition devices.
  • FIG. 1 is a block diagram showing a voice recognition system according to a first embodiment of the present invention
  • FIG. 2 is a block diagram showing a voice recognition system according to a second embodiment of the present invention.
  • FIG. 3 is a block diagram showing the configuration of a server according to a second embodiment of the present invention.
  • FIG. 4 is a flowchart showing a voice recognition method according to a first embodiment of the present invention.
  • FIG. 5 is a flowchart showing a voice recognition method according to a second embodiment of the present invention.
  • FIG. 6 is a flowchart showing a voice recognition method according to a third embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a voice recognition method according to a fourth embodiment of the present invention.
  • 8 to 12 are each a schematic diagram showing a scenario according to the voice recognition method of the present invention.
  • the expression “A or B,” “at least one of A or / and B,” or “one or more of A or / and B” may include all possible combinations of items listed together.
  • “A or B,” “at least one of A and B,” or “at least one of A or B”, includes (1) at least one A, (2) at least one B, Or (3) both of cases including at least one A and at least one B.
  • first,” “second,” “first,” or “second,” and the like may modify various elements, regardless of order and / or importance, and do not limit the corresponding elements. Do not. Such expressions may be used to distinguish one component from another.
  • the first user device and the second user device may represent different user devices regardless of the order or importance.
  • the first component may be referred to as a second component, and similarly, the second component may be renamed to the first component.
  • One component is "(operatively or communicatively) coupled with / to" to another component (eg the second component) or " When referred to as “connected to”, it is to be understood that one component may be directly connected to another component or may be connected through another component (eg, a third component).
  • a component e.g., a first component
  • another component e.g., a second component
  • the expression “configured to” is, depending on the context, for example, “suitable for,” “having the capacity to. It may be used interchangeably with “designed to,” “adapted to,” “made to,” or “capable of.”
  • the term “configured to” may not necessarily mean only “specifically designed to” in hardware. Instead, in some situations, the expression “device configured to” may mean that the device “can” along with other devices or components.
  • the phrase “controller configured (or set up) to perform A, B, and C” may execute a dedicated controller (eg, an embedded controller) to perform the operation, or one or more software programs stored in a memory device. By doing so, it may mean a general-purpose processor (for example, a CPU or an application processor) capable of performing the corresponding operations.
  • FIG. 1 is a block diagram showing a voice recognition system 1 according to an embodiment of the present invention.
  • the voice recognition system 1 may include first to fourth voice recognition connected to a network cluster, for example, an Internet of Things (IoT) in an environment within a specific space such as a home, a building, a building, or an office.
  • a network cluster for example, an Internet of Things (IoT) in an environment within a specific space such as a home, a building, a building, or an office.
  • Devices 100, 200, 300, and 400 In FIG. 1, the voice recognition system 1 is composed of four voice recognition devices 100, 200, 300, and 400, but may be implemented in two, three, or five or more.
  • the four voice recognition devices (100, 200, 300, 400) are connected to each other through the Internet of Things and has a voice recognition function, for example, refrigerator, TV, smartphone, audio, computer, washing machine, electric oven, lighting, car, etc. Is implemented.
  • the first voice recognition device 100 is a refrigerator set to a wakeup word 'Jippel'
  • the second voice recognition device 200 is a smart set to a wakeup word 'Fab'
  • the third voice recognition device 300 is a smartphone set to the wakeup Word (Wakeup Word) 'Galaxy'
  • the fourth voice recognition device 400 is a sound service device set to the wakeup Word (Hakeup Word) 'Hive' An example will be described.
  • the first voice recognition device 100 includes a first microphone 110, a first communication unit 120, a first control unit 130, a first voice recognition unit 140, a first storage unit 150, and a first output.
  • the unit 160 is included.
  • the first voice recognition device 100 may include components other than the above-described configuration as a refrigerator.
  • the first microphone 110 receives a user's voice signal.
  • the microphone 100 generates an electric signal according to the vibration of sound waves or ultrasonic waves.
  • the microphone 100 includes, for example, a carbon type (carbon grain type), a crystal type (crystal type), a dynamic type (movable coil type), a condenser type (capacitor type), a semiconductor type, or the like.
  • the first communication unit 120 is communicatively connected to the second to fourth voice recognition devices 200, 300, and 400 to transmit and receive various data, for example, a voice signal and a service processing result.
  • the first communication unit 120 includes 2G, 3G, 4G, mobile communication such as Long Term Evolution (LTE), wireless Internet such as Wibro (Wireless broadband), Wimax (World Interoperability for Microwave Access), and HSDPA (High Speed Downlink Packet Access).
  • the module may include a short range communication module such as Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), and ZigBee.
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • UWB Ultra Wideband
  • ZigBee ZigBee
  • the first controller 130 is a component of the first voice recognition device 100, for example, the first microphone 110, the first communication unit 120, the first voice recognition unit 140, and the first storage unit. 150, overall control of the first output unit 160.
  • the first controller 130 may include a central processing unit (CPU), a micro processing unit (MPU), application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), and programmable logic devices (PLDs). It is implemented as a control board including field programmable gate arrays (FPGAs), micro-controllers, and microprocessors.
  • the first controller 130 may include not only hardware but also software such as an operating system (OS) of the first voice recognition apparatus 100.
  • the first controller 130 processes the user request service included in the voice signal received through the first microphone 110 or the first communication unit 120 and provides the result to the user through the first output unit 160. Or it transmits to the other voice recognition device that transmits the voice signal through the first communication unit 120.
  • OS operating system
  • the first voice recognition unit 140 receives a voice signal and performs a voice recognition process.
  • the speech recognition function is a series of processes for converting a speech signal into language data, and the first speech recognition unit 140 may convert the speech signal into language data and output the speech signal according to various known speech recognition methods.
  • the voice signal received through the first microphone 110 may include various noises in addition to the voice of the user aiming for voice recognition, only the voice component of the user is extracted and extracted through a preprocessing process such as frequency analysis.
  • the speech recognition process can be performed on the speech component.
  • the first voice recognition unit 140 may be implemented as a voice recognition engine. Since a voice recognition method through a voice recognition engine has a variety of known methods, description thereof will be omitted.
  • the first voice recognition unit 140 may be implemented as an embedded engine provided in the first voice recognition device 100, and may be implemented as separate hardware or as software executed by the first control unit 130. May be Such an embedded engine may recognize only a certain number of specific vocabularies. For example, when the first voice recognition device 100 is implemented as a refrigerator, the first voice recognition device 100 may be used for recognizing a voice input of a user for controlling the refrigerator. Services that a refrigerator can provide to a user include cooking recipes, refrigerator or freezer temperature information, and food storage information.
  • the first voice recognition unit 140 recognizes the voice signal and grasps the service information or the user command (hereinafter referred to as 'request service') requested by the user.
  • 'zipel' is a wake-up word for identifying a service request object, that is, a refrigerator.
  • the first voice recognition unit 140 may recognize that the device requesting the service by recognizing a wakeup word of 'Jippel' among the user utterance voices is the first voice recognition device 100 (refrigerator).
  • the first voice recognition apparatus 100 (the refrigerator) has a special recognition capability in its own service domain, that is, cooking recipe, refrigerator or freezer temperature information, food storage information, and the like.
  • the first voice recognition device (100, refrigerator) says 'Galaxy, show the drama that is on air' or 'Galaxy, tell me your favorite music'.
  • the voice recognition unit 140 analyzes the voice signal for the spoken voice to grasp the wake-up word of 'Galaxy'.
  • the voice recognition unit 140 transmits to the first control unit 130 that the identified wake-up word is 'Galaxy'.
  • the first control unit 130 transmits a voice signal to the third voice recognition device 300 (smartphone) corresponding to 'Galaxy' through the first communication unit 120.
  • the language recognition ability of the first voice recognition unit 140 may be limited to only the refrigerator, and a smart TV, a smart phone, and a sound service device connected to a network. It may also have language recognition skills associated with it. If the language recognition ability of the first speech recognition unit 140 is limited to the refrigerator only, the user wakes up from the 'galaxies, show dramas that are on air' or 'galaxy, tell me your favorite music' Since the phrase except for the word cannot be recognized, the received voice signal is transmitted to the third voice recognition device 300 as it is. If the voice recognition unit 140 also has a language recognition capability associated with a smart TV, a smart phone, a sound service device, etc. connected to the network, the first voice recognition unit 140 recognizes not only a wake-up word but also a phrase itself, Identify included user request services. Accordingly, the first controller 130 may transmit the identified requested service information instead of the voice signal.
  • the user spoken voice does not necessarily include a wake up word. If there is no wake-up word, it is possible to grasp the requested service information included in the voice signal and select another voice recognition device capable of service processing.
  • the first voice recognition device 100 stores the service domain information and device capability information of the smart TV, the smart phone, the sound service device connected to the network, etc. in the first storage unit 150 and then the device capable of service processing. You can choose.
  • the voice recognition unit 140 If the voice recognition unit 140 cannot recognize the user's voice signal itself, the voice recognition unit 140 transmits the voice signal to all smart TVs, smartphones, and sound service devices connected to the network. In this case, the smart TV, the smart phone, and the sound service device that receives the received service transmit the service result to the first voice recognition device 100 that transmits a voice signal after recognizing and processing the service. If the voice signal received from the smart TV, the smart phone, or the audio service device cannot be recognized, the terminal determines that the voice signal is irrelevant to itself.
  • the first storage unit 150 stores unlimited data.
  • the first storage unit 150 is accessed by the first control unit 130 and the first voice recognition unit 140, and the data is read, recorded, modified, deleted, and updated by the first control unit 130 and the first voice recognition unit 140.
  • the data stored in the first storage unit 150 includes, for example, wake-up word related data, device capability information (including output device information), service domain information, etc. of self and other voice recognition devices connected through a network.
  • the first storage unit 150 includes an operating system, various applications executable on the operating system, software, image data, additional data, and the like.
  • the first storage unit 150 may be a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory, etc.). Random Access Memory (RAM), Random Random Access Memory (SRAM), Read-Only Memory (ROM), Electrically Erasable Programmable Read-Only Memory (EEPROM), Programmable Read-Only Memory (PROM), It may include a storage medium of at least one type of magnetic disk, optical disk.
  • RAM Random Access Memory
  • SRAM Random Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • It may include a storage medium of at least one type of magnetic disk, optical disk.
  • the first output unit 160 provides the user with information, that is, a result of service processing.
  • the first output unit 160 is implemented as a display, a speaker, or the like.
  • the refrigerator may be equipped with a medium-sized display and small speakers.
  • the second voice recognition device 200 includes a second microphone 210, a second communication unit 220, a second control unit 230, a second voice recognition unit 240, a second storage unit 250, and a second output.
  • the unit 260 is included.
  • the second voice recognition device 200 may include components other than the above-described configuration as the smart TV.
  • the second voice recognition device 200 implemented as a smart TV recognizes the voice signal received through the second microphone 210 or the second communication unit 220 to process the smart TV and the related request service included in the voice signal. .
  • the processed service result is provided to the user through the second output unit 260, for example, a display and a speaker.
  • the processed service result is transmitted to the other voice recognition device through the second communication unit 220.
  • the third voice recognition device 300 includes a third microphone 310, a third communication unit 320, a third control unit 330, a third voice recognition unit 340, a third storage unit 350, and a third output. A portion 360 is included.
  • the third voice recognition device 300 may include components other than the above-described configuration as a smart phone.
  • the third voice recognition device 300 implemented as a smart phone recognizes the voice signal received through the third microphone 310 or the third communication unit 320 and processes the smartphone and the related request service included in the voice signal. .
  • the processed service result is provided to the user through the third output unit 360, for example, a display and a speaker.
  • the processed service result is transmitted to the other voice recognition device through the third communication unit 320.
  • the fourth voice recognition device 400 includes a fourth microphone 410, a fourth communication unit 420, a fourth control unit 430, a fourth voice recognition unit 440, a fourth storage unit 450, and a fourth output. A portion 460 is included.
  • the fourth speech recognition apparatus 400 may include components other than the above-described configuration as the sound service apparatus.
  • the fourth voice recognition device 400 implemented as a sound service device recognizes a voice signal received through the fourth microphone 410 or the fourth communication unit 420 to provide a sound service device and a related request service included in the voice signal. Process.
  • the processed service result is provided to the user through the fourth output unit 460, for example, a speaker.
  • the processed service result is transmitted to the other voice recognition device through the fourth communication unit 420.
  • Each of the first to fourth voice recognition devices 100, 200, 300, and 400 has its own service domain and processing capability.
  • the first voice recognition device 100 implemented as a refrigerator may have a service domain such as providing a cooking recipe, providing a refrigerator or freezer temperature information, providing food storage information, and the like.
  • the fourth speech recognition apparatus 200, 300, 400 has this service domain information.
  • the second voice recognition device 200 implemented as a smart TV may have a service domain such as broadcast channel information provision, content search, control function, broadcast program reservation, etc., and recognize first, third and fourth voice recognition connected through a network.
  • the apparatus 100, 300, 400 has this service domain information.
  • the third voice recognition device 300 implemented as a smart phone may have a service domain such as making a call, providing weather information, searching a news article, setting an alarm, and listening to music.
  • the first, second and fourth networks may be connected to a network.
  • the voice recognition devices 100, 200, and 400 have this service domain information.
  • the fourth speech recognition apparatus 400 implemented as the sound service apparatus may have a service domain such as music listening, audio book reading, knowledge search, and the like.
  • the first, second and third speech recognition apparatus 100 connected to the network may be provided.
  • 200 and 300 have this service domain information.
  • Each of the first to fourth voice recognition devices 100, 200, 300, and 400 has its own output unit 160, 260, 360, and 460.
  • the first voice recognition device 100 implemented as a refrigerator has a speaker and a medium display.
  • the second voice recognition device 200 implemented as a smart TV has a speaker and a large display.
  • the third voice recognition device 300 implemented as a smartphone has a speaker and a small display.
  • the fourth voice recognition device 400 implemented as the sound service device may have only a speaker without a display.
  • FIG. 2 is a block diagram of a speech recognition system 1 according to a second embodiment of the present invention.
  • the voice recognition system 1 of FIG. 2 since the first to fourth voice recognition devices 100 to 400 are similar to those of FIG. 1, a separate description thereof will be omitted.
  • the first to fourth voice recognition devices 100 to 400 of the first to fourth voice recognition unit 140, 240, 340, 440 lacks the capability or the service processing capability of the first to fourth voice
  • the servers 500-1, 500-2, 500-3, and 500-4 connected to the recognition devices 100 to 400 are used.
  • the first to fourth speech recognition apparatuses 100 to 400 are sufficient to recognize only the wakeup word.
  • the voice recognition system 1 it is not necessary for all of the first to fourth voice recognition devices 100 to 400 to process voice recognition or request service through a server.
  • the voice recognition device 300 implemented as a smart phone has sufficient voice recognition capability and service processing capability, the server 500-3 may be omitted.
  • the first server 500-1 includes a server communication unit 520, a server controller 530, a server voice recognition unit 540, and a server storage unit 550.
  • the configurations of the second to fourth servers 500-2, 500-3, and 500-4 are similar to those of the first server 500-1, description thereof is omitted.
  • the server communication unit 520 receives a voice signal from the connected voice recognition device 100.
  • the server communication unit 520 moves such as VDSL, Ethernet, token ring, HDMI (high definition multimedia interface), USB, component, LVDS, HEC, data communication, 2G, 3G, 4G, Long Term Evolution (LTE).
  • Communication wireless Internet technologies such as Wireless LAN (Wi-Fi), Wireless broadband (Wibro), World Interoperability for Microwave Access (Wimax), High Speed Downlink Packet Access (HSDPA), and Bluetooth, RFID ( Near field communication technologies such as Radio Frequency Identification (IrDA), infrared data association (IrDA), ultra wideband (UWB), and ZigBee may be applied.
  • Wi-Fi Wireless broadband
  • Wibro World Interoperability for Microwave Access
  • HSDPA High Speed Downlink Packet Access
  • RFID Near field communication technologies such as Radio Frequency Identification (IrDA), infrared data association (IrDA), ultra wideband (UWB), and ZigBe
  • the server controller 530 controls each component of the server.
  • the server controller 530 processes the received and recognized voice signal request service and provides the received voice recognition device 100 through the server communication unit 520.
  • the server controller 530 may include a central processing unit (CPU), a micro processing unit (MPU), application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), It is implemented as a control board that includes field programmable gate arrays (FPGAs), micro-controllers, and microprocessors.
  • the server controller 530 may include not only hardware but also software such as an operating system (OS).
  • OS operating system
  • the server voice recognition unit 540 may be implemented as a voice recognition engine.
  • the voice recognition engine may be implemented by an embedded engine, or may be implemented by separate hardware or by software executed by the server controller 530. Embedded engines may only recognize a certain number of specific vocabularies. For example, when the first voice recognition device 100 is implemented as a refrigerator, the first voice recognition device 100 may be used for recognizing a voice input of a user for controlling the refrigerator.
  • the server storage unit 550 stores data used by the server voice recognition unit 540, for example.
  • the server storage unit 550 includes request service processing result data information included in the voice signal.
  • the server storage unit 550 includes an operating system, various applications executable on the operating system, software, image data, additional data, and the like.
  • the voice recognition method includes a wake-up word included in a voice signal of a voice spoken by a user, and a voice recognition unit recognizes the wake-up word to designate a voice recognition device (see FIG. 4).
  • a method of designating a voice recognition device using the request service information by identifying the request service information included in the voice signal without the wake-up word and by using the request service information (see FIG. 5). If there is no word and the voice recognition unit can recognize the voices of the service domains of all the voice recognition devices connected thereto, and if the request service is not processed, a method of transmitting to all networked voice recognition devices (see FIG. 6), and the user There is no wake-up word in the voice signal of the spoken voice, and the voice recognition unit can recognize only the voice of its service domain. If separated by method (see Fig. 7) for transmitting all the speech recognition device connected to a network.
  • FIG. 4 is a flowchart illustrating a voice recognition method according to a first embodiment of the present invention.
  • step S110 a plurality of voice recognition devices installed in a specific space, for example, a house, are connected to the Internet of Things (IoT) to form a cluster.
  • IoT Internet of Things
  • any one of the plurality of voice recognition devices receives a voice signal from the user.
  • the voice signal includes a wake-up word corresponding to a voice recognition device (hereinafter, referred to as a second voice recognition device) for which a user wants a service request or a function control among the plurality of voice recognition devices. For example, if a user wants to watch a drama through a display attached to the refrigerator, the user requests 'show the drama' through the microphone of the refrigerator.
  • step S130 the voice recognition unit of the first voice recognition device grasps the wake-up word included in the voice signal. For example, extract a wake-up word called 'fab' from 'Show Fab, Show Drama'.
  • the controller of the first voice recognition device selects a second voice recognition device corresponding to 'fab' among the plurality of voice recognition devices.
  • step S150 the communication unit of the first voice recognition device transmits a voice signal to the second voice recognition device corresponding to 'fab'.
  • step S160 the voice recognition unit of the second voice recognition device recognizes the request service included in the voice signal and processes the service. If there is no specific instruction for the drama, the drama list is sent to the first speech recognition device. If a specific drama is assigned to the audio signal, the process proceeds to the next step.
  • the user transmits the drama selection information to the second voice recognition apparatus, and the second voice recognition apparatus transmits the selected drama to the first voice in a stream or download manner. Send it to the recognition device.
  • the second speech recognition apparatus provides the appropriate drama data on the assumption that the apparatus capability and output specification of the first speech recognition apparatus are known, for example, when the first speech recognition apparatus has a small memory capacity, In addition, low-quality or high-definition drama image data can be selected and transmitted. If the first voice recognition apparatus does not have a display, only audio data may be separated and transmitted.
  • the first voice recognition apparatus outputs the transmitted drama to a display and / or a speaker and provides the same to the user.
  • the voice recognition unit of each voice recognition device may recognize only its service domain area, thereby improving recognition accuracy.
  • FIG. 5 is a flowchart illustrating a voice recognition method according to a second embodiment of the present invention.
  • step S210 a plurality of voice recognition devices installed in a specific space, for example, a house, are connected to the Internet of Things (IoT) to form a cluster.
  • IoT Internet of Things
  • any one of the plurality of voice recognition devices receives a voice signal from the user.
  • the voice signal does not include a wake-up word corresponding to the voice recognition device (second voice recognition device) that the user wants to control the service request or function among the plurality of voice recognition devices. For example, if a user wants to watch a drama through a display attached to the refrigerator, the user requests 'show a drama' through the refrigerator's microphone.
  • step S230 the voice recognition unit of the first voice recognition device grasps the request service included in the voice signal. For example, show me a drama to identify a service domain called drama service.
  • the controller of the first voice recognition device selects a second voice recognition device capable of processing a drama providing service among the plurality of voice recognition devices.
  • the second voice recognition device selection may be performed by storing the service domain information of the second voice recognition device in a storage unit of the first voice recognition device, and comparing the identified service domain with a service domain stored in the storage unit. Select the recognition device.
  • the service domain may be selected by providing a plurality of voice recognition devices or by providing a priority when a plurality of voice recognition devices are possible at the same time.
  • step S250 the communication unit of the first voice recognition device transmits the voice signal or the requested service information to the selected second voice recognition device.
  • the voice recognition unit of the second voice recognition device when the voice recognition unit of the second voice recognition device receives the voice signal, the voice recognition unit recognizes the request service included in the voice signal and processes the service. If the requested service information is received, the service is processed immediately. If there is no specific instruction for the drama, the drama list is sent to the first voice recognition device. If you have specified a particular drama, go to the next step.
  • step S270 when the user selects one of the drama lists from the first voice recognition device, the user transmits the drama selection information to the second voice recognition device, and the second voice recognition device transmits the selected drama to the first voice in a stream or download manner. Send it to the recognition device.
  • the second speech recognition apparatus provides the appropriate drama data on the assumption that the apparatus capability and output specification of the first speech recognition apparatus are known, for example, when the first speech recognition apparatus has a small memory capacity, In addition, low-quality or high-definition drama image data can be selected and transmitted. If the first voice recognition apparatus does not have a display, only audio data may be separated and transmitted.
  • the first voice recognition apparatus outputs the transmitted drama to a display and / or a speaker and provides the same to the user.
  • the voice recognition method can identify the request service requested by the user only when all the plurality of voice recognition devices connected to the network are capable of syntax recognition from the voice signal uttered by the user. Possible second speech recognition device can be selected.
  • FIG. 6 is a flowchart illustrating a voice recognition method according to a third embodiment of the present invention.
  • step S310 a plurality of voice recognition devices installed in a specific space, for example, a house, are connected to the Internet of Things (IoT) to form a cluster.
  • IoT Internet of Things
  • any one of the plurality of voice recognition devices receives a voice signal from the user.
  • the voice signal does not include a wake-up word corresponding to a voice recognition device (hereinafter, referred to as a 'second voice recognition device') for which the user wants a service request or a function control among the plurality of voice recognition devices. For example, if a user wants to watch a drama through a display attached to the refrigerator, the user requests 'show a drama' through the refrigerator's microphone.
  • step S330 the voice recognition unit of the first voice recognition device grasps the request service included in the voice signal. For example, show me a drama to identify a service domain called drama service.
  • the first voice recognition apparatus determines whether the processed request service can be processed.
  • the request service is processed in step S350, and the service processing result is provided to the user through a display or a speaker in step S390.
  • step 360 the controller of the first voice recognition apparatus transmits the service processing request or voice signal to all other voice recognition apparatuses connected through the network.
  • step S370 all other voice recognition apparatuses connected to the network determine whether the service processing request can be processed and terminate if service processing is not possible, and process the service if possible. If it is received by the voice signal, the contents of the requested service included in the voice signal are grasped. If grasping is possible, it is determined whether service processing is possible, and if service processing is possible, processing is performed. If there is no specific instruction for a drama in the requested service information, the drama list is sent to the first voice recognition device. If you have specified a particular drama, go to the next step.
  • step S380 when the user selects one of the drama lists from the first voice recognition device, the user selects the drama selection information to the second voice recognition device, and the second voice recognition device transmits the selected drama to the first voice in a stream or download manner. Send it to the recognition device.
  • appropriate drama data is provided on the premise that the device capability of the first voice recognition device and the output unit specification are known.
  • low-quality or high-definition drama image data can be selected and transmitted. If the first voice recognition apparatus does not have a display, only audio data may be separated and transmitted.
  • the first speech recognition apparatus outputs the transmitted drama to a display and / or a speaker and provides the same to the user.
  • FIG. 7 is a flowchart illustrating a voice recognition method according to a fourth embodiment of the present invention.
  • step S410 a plurality of voice recognition devices installed in a specific space, for example, a house, are connected to the Internet of Things (IoT) to form a cluster.
  • IoT Internet of Things
  • any one of the plurality of voice recognition devices receives a voice signal from the user.
  • the voice signal does not include a wake-up word corresponding to the voice recognition device (second voice recognition device) that the user wants to control the service request or function among the plurality of voice recognition devices. For example, if a user wants to watch a drama through a display attached to the refrigerator, the user requests 'show a drama' through the refrigerator's microphone.
  • step S430 the voice recognition unit of the first voice recognition device grasps the request service included in the voice signal. For example, show me a drama to identify a service domain called drama service.
  • the request service is processed in step S440, and the service processing result is provided to the user through a display or a speaker in step S480.
  • the service processing is also possible.
  • step 450 the controller of the first voice recognition device transmits a voice signal to all other voice recognition devices connected through a network.
  • step S460 all other voice recognition devices connected to the network determine if the request service can be processed and terminate if it cannot process. If possible, the request service is processed. If there is no specific request for drama in the requested service information, the drama list is sent to the first voice recognition device. If you have specified a particular drama, go to the next step.
  • operation S470 when the user selects one of the drama lists from the first voice recognition device, the user selects the drama selection information to the second voice recognition device, and the second voice recognition device transmits the selected drama to the first voice in a stream or download manner. Send it to the recognition device.
  • appropriate drama data is provided on the premise that the device capability of the first speech recognition apparatus and the output unit specification are known.
  • low-quality or high-definition drama image data can be selected and transmitted. If the first voice recognition apparatus does not have a display, only audio data may be separated and transmitted.
  • the first speech recognition apparatus outputs the transmitted drama to a display and / or a speaker and provides the same to the user.
  • the voice recognition method according to the fourth embodiment applies to all connected voice recognition devices when each of the voice recognition devices connected to the network in the voice signal uttered by the user has only a service processing capability limited to its service domain. Can be sent to request processing.
  • FIG. 8 is a schematic diagram showing a service scenario of the voice recognition system 1 according to the embodiment of the present invention.
  • a plurality of voice recognition devices share their functions (recognition service domain, capability, wakeup word, output device information, etc.) through a network configuration.
  • Device 1 is a refrigerator capable of speech recognition arranged in the kitchen, the wake-up word is referred to as 'Jippel'.
  • Device 1 may have a service domain such as cooking recipe, refrigerator or freezer temperature information, food storage information, refrigerator temperature control, refrigerator function control, and the like.
  • Device 1 may include a speaker and a medium display as output devices.
  • the device 2 is a smart TV capable of voice recognition disposed in the living room, and the wakeup word is called 'fab'.
  • the device 2 may have a service domain such as broadcast channel information, content search, control functions (channel up and down, power on and off), broadcast program reservation, and image transmission.
  • Device 2 may include a speaker and a large display as output devices.
  • Device 3 is a smartphone capable of speech recognition arranged in the room 1, the wake-up word is referred to as 'Galaxy'.
  • the device 3 may have a service domain such as dialing, weather information, news article search, alarm setting, and listening to music.
  • Device 3 may include a speaker and a small display as output devices.
  • Device 4 is a voice recognition capable audio service device arranged in room 2, and the wakeup word is called a 'hive'.
  • the device 3 may have a service domain such as listening to music through a music service, reading a backbook, or searching for knowledge.
  • Device 4 may have a speaker as an output device.
  • FIG. 9 is a schematic diagram illustrating identifying a cluster-to-cluster voice recognition device using a wake-up word when configuring a network between a plurality of voice recognition devices. It may be possible to request a user speech service from a device capable of responding appropriately through reception or analysis after delivering the user speech to all devices. However, if the speech recognition device is designated through a wake-up word, fast user service processing may be performed with small traffic. It is possible to request a user speech service from a device capable of responding appropriately through reception or analysis after delivering the user speech to all devices. However, if the speech recognition device is designated through a wake-up word, fast user service processing may be performed with small traffic. It is possible
  • FIG. 10 is a schematic diagram illustrating an example of a scenario in which a user speech recognition range is extended through a voice recognition device cluster.
  • a voice recognition device which is close to the user using the voice recognition device cluster may transmit the user's speech information instead.
  • the traditional scenario according to the conventional method it is necessary to go directly to room 1 and perform utterance on the smartphone.
  • Fig. 10 when a user ignites 'Galaxy, how's the weather today' in device 1 (fridge), device 1 (fridge) recognizes the wake-up word 'Galaxy' and ignites it in device 3 (Galaxy).
  • 2 Device 3 delivers the requested service weather information to Device 1 (fridge)
  • 3 Device 1 (Fridge) delivers it to the user through a display or speaker.
  • FIG. 11 is a schematic diagram illustrating a scenario in which a user receives abundant services from an individual voice recognition device through a voice recognition device cluster.
  • Most voice recognition devices can only provide services in a limited domain due to voice recognition performance and device purpose.
  • the smart TV itself can provide a control function and simple content search information, but the smart TV of the present invention can provide a service in various scenarios as follows. If you input a voice to the smart TV 'Zipel, low calorie food?' 1 You can receive the requested service through the device 1 (fridge).
  • the voice input to the device 2 'Galaxy, please tell me the afternoon?' 2 You can receive the request service through the device 3 (smartphone).
  • the voice input to the device 2 'Hive, please read the Little Prince audio book', 3 can receive the request service through the device 4 (sound service device).
  • FIG. 12 is a schematic diagram illustrating a scenario of receiving updated information through an output device of the voice recognition device.
  • a richer service can be provided through a voice recognition device having a display (or large display) device.
  • Operations according to an embodiment of the present invention may be implemented by a single or a plurality of controls.
  • program instructions for performing various computer-implemented operations may be recorded on a computer-readable medium.
  • the computer-determinable medium may include program instructions, data files, data structures, and the like, alone or in combination.
  • the program instructions may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those skilled in the art.
  • Examples of computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs or DVDs, magnetic-optical media such as floppy disks and ROMs.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the present invention can be applied to various electronic devices connected to the Internet of Things in a home or an office.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Signal Processing (AREA)

Abstract

네트워크로 연결되어 음성인식기능을 공유할 수 있는 음성인식장치가 개시된다. 음성인식장치는 사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰, 적어도 하나의 외부음성인식장치와 통신하는 통신부, 음성신호에 포함된 웨이크업 워드를 파악하는 음성인식부, 및 파악된 웨이크업 워드에 해당하는 외부음성인식장치에 음성신호를 전송하는 제어부를 포함한다. 이에 의하면, 물리적 마이크로폰 특성으로 발생하는 음성인식 거리의 한계를 극복하고 음성인식이 가능한 공간적 범위를 확대하여 사용자에게 더욱 많은 장소에서 다양한 음성인식 서비스 제공이 가능하다.

Description

음성인식 장치 및 방법, 음성인식시스템
본 발명은 음성인식범위를 확장하고 더욱 향상된 서비스를 제공할 수 있는 음성인식 장치 및 방법, 음성인식시스템에 관한 것이다.
일반적으로 음성 인식의 기술은 마이크로폰을 통해 사용자의 아날로그 음성을 탐지하고, 탐지된 음성을 클라이언트의 일부 처리 후 데이터를 서버에 보내 NLU(Natural Language Understanding), DM(Dialog Manager)등 처리를 거쳐 제3자 서비스 연동을 통해 서비스를 제공하게 된다.
음성 탐지를 위해서는 마이크로폰이 필요하다. 이때, 마이크로폰과 사용자 사이의 인식 거리 한계가 발생하게 된다. 이러한 한계를 극복하기 위해 다양한 알고리즘 기술 개발과 더불어 물리적으로 마이크로폰을 다수 장착하여 인식의 거리를 넓히는 등의 노력도 진행되고 있다. 또한, 장치와 직접 연결되는 리모컨 마이크로폰을 통해 음성을 입력하기도 한다. 다만, 이러한 노력에도 음성인식의 공간적 제약은 발생한다. 예를 들면, 방에 음성인식장치가 놓여 있을 경우 거실에서는 인식 거리 제약으로 음성 명령을 요청하더라도 인식이 되지 않는다.
특히, 많은 음성인식장치는 각자 지원하는 서비스가 상이하다. 예를 들면 스마트 TV는 방송 프로그램 및 영상 컨텐츠에 대한 인식 서비스 지원이 많은 반면에, 스마트폰은 음악 서비스와 같은 개인화된 컨텐츠에 맞추어 지원하는 등 서비스 도메인이 서로 다르게 존재한다. 따라서 사용자는 많은 음성인식장치에 대해 각자 다른 방식으로, 각 음성인식장치에 맞추어 서비스를 요청할 수밖에 없다.
본 발명의 목적은 음성인식장치의 마이크로폰의 물리적 한계에 의해 발생하는 음성인식 거리의 한계를 극복하고 음성인식이 가능한 공간적 범위를 확대하여 사용자에게 더욱 많은 장소에서 다양한 음성인식서비스를 제공할 수 있는 음성인식 장치 및 방법을 제공하는 데에 있다.
본 발명의 다른 목적은 각각 고유의 음성인식의 서비스 기능을 가진 복수 음성인식장치의 기능을 공유하여 장소에 관계없이 현재 인식 범위보다 더 넓은 공간에서 단일 음성 인식 장치 더욱 많은 다양한 음성인식 서비스 제공을 할 수 있는 음성인식 장치 및 방법을 제공하는 데에 있다.
상술한 본 발명의 해결과제를 달성하기 위한 제1실시예에 따른 음성인식장치는, 사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰과; 적어도 하나의 외부음성인식장치와 통신하는 통신부; 상기 음성신호에 포함된 웨이크업 워드를 파악하는 음성인식부와; 상기 파악된 웨이크업 워드에 해당하는 외부음성인식장치에 상기 음성신호를 전송하는 제어부를 포함하는 것을 특징으로 한다.
상기 통신부는 상기 음성신호를 전송한 외부음성인식장치로부터 상기 음성신호에 포함된 요청 서비스의 수행결과를 수신할 수 있다.
상기 제어부는 상기 외부음성인식장치가 전송한 서비스 수행결과를 사용자에게 제공하는 출력부를 더 포함할 수 있다.
상기 통신부는 상기 적어도 하나의 외부음성인식장치로부터 음성신호를 수신할 수 있다.
상기 제어부는 상기 적어도 하나의 외부음성인식장치로부터 수신된 음성신호에 포함된 요청 서비스를 수행할 수 있다.
상기 제어부는 상기 수행된 서비스 결과를 상기 음성신호를 전송한 외부음성인식장치에 전송할 수 있다.
상기 제어부는 상기 음성신호를 전송한 외부음성인식장치의 출력부 능력을 파악하여, 상기 출력부 능력에 적합한 서비스 수행결과를 전송할 수 있다.
상기 제어부는 상기 음성인식부가 상기 음성신호에 포함된 요청 서비스 정보를 파악할 수 없을 경우 상기 통신부를 통해 상기 음성신호를 서버에 전송하고, 상기 서버로부터 상기 음성신호에 포함된 요청 서비스 정보 또는 요청 서비스 수행결과를 수신할 수 있다.
상기 적어도 하나의 외부음성인식장치는 사물인터넷으로 연결될 수 있다.
본 발명의 제2실시예에 따른 음성인식장치는, 사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰과; 적어도 하나의 외부음성인식장치와 통신하는 통신부; 상기 음성신호에 포함된 요청 서비스를 파악하는 음성인식부와; 상기 파악된 요청 서비스를 수행할 수 없을 경우, 상기 적어도 하나의 외부음성인식장치 중 상기 요청 서비스를 수행할 수 있는 외부음성인식장치를 선택하여 상기 음성신호를 전송하는 제어부를 포함하는 것을 특징으로 한다.
상기 적어도 하나의 외부음성인식장치의 서비스 도메인 정보 및 장치능력 정보를 저장하는 저장부를 더 포함할 수 있다.
상기 제어부는 상기 서비스 도메인 정보 및 장치능력 정보 중 적어도 하나를 기초로 상기 요청 서비스를 처리할 수 있는 외부음성인식장치를 선택할 수 있다.
상기 통신부는 상기 적어도 하나의 외부음성인식장치로부터 음성신호를 수신할 수 있다.
상기 제어부는 상기 음성신호에 포함된 요청 서비스를 수행할 수 있다.
상기 제어부는 상기 서비스 수행결과를 상기 음성신호를 전송한 외부음성인식장치에 전송할 수 있다.
본 발명의 제3실시예에 따른 음성인식장치는, 사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰과; 적어도 하나의 외부음성인식장치와 통신하는 통신부; 상기 음성신호에 포함된 요청 서비스를 파악하는 음성인식부와; 상기 음성신호로부터 요청 서비스를 파악할 수 없을 경우 상기 적어도 하나의 외부음성인식장치에 상기 음성신호를 전송하는 제어부를 포함하는 것을 특징으로 한다.
상기 통신부는 상기 적어도 하나의 외부음성인식장치로부터 음성신호를 수신할 수 있다.
상기 음성인식부는 상기 적어도 하나의 외부음성인식장치로부터 수신된 음성신호에 포함된 요청 서비스를 파악하고, 상기 제어부는 상기 파악된 요청 서비스가 수행가능한지를 판단할 수 있다.
상기 제어부는 상기 요청 서비스를 수행할 수 있을 경우 요청 서비스를 수행하고, 서비스 수행결과를 상기 음성신호를 전송한 외부음성인식장치에 전송 할 수 있다.
본 발명의 실시예에 따른 음성인식시스템은, 네트워크 클러스터로 구성된 복수의 음성인식장치들을 포함하며, 상기 복수의 음성인식장치들 중 제1음성인식장치가 사용자의 발화음성으로부터 음성신호를 수신하고, 상기 음성신호에 포함된 정보를 파악하고, 상기 파악된 정보를 기초로 상기 복수의 음성인식장치들 중 제2음성인식장치를 선택하고, 상기 음성신호를 상기 선택된 제2음성인식장치에 전송하고, 상기 제2음성인식장치는 상기 수신한 음성신호에 포함된 요청 서비스를 수행하여, 상기 제1음성인식장치에 전송하는 것을 특징으로 한다.
상기 제2음성인식장치의 선택은 상기 음성신호에 포함된 웨이크업 워드 및 요청 서비스 정보 중 적어도 하나를 기초로 수행될 수 있다.
상기 복수의 음성인식장치는 각각 네트워크로 연결된 모든 음성인식장치들의 장치능력 정보 및 서비스 도메인 정보 중 적어도 하나를 저장하는 저장부를 포함할 수 있다.
본 발명의 실시예에 따른 음성인식방법은, 네트워크로 연결된 복수의 음성인식장치들 중 제1음성인식장치가 사용자의 발화음성으로부터 음성신호를 수신하는 단계와; 제1음성인식장치가 상기 음성신호에 포함된 정보를 파악하는 단계와; 제1음성인식장치가 상기 음성신호에 포함된 정보를 기초로 복수의 음성인식장치들 중 제2음성인식장치를 선택하는 단계와; 상기 선택된 제2음성인식장치에 상기 음성신호를 전송하는 단계와; 상기 제2음성인식장치가 상기 음성신호에 포함된 요청 서비스를 수행하는 단계와; 상기 제2음성인식장치가 상기 요청 서비스 수행결과를 상기 제1음성인식장치에 전송하는 단계를 포함하는 것을 특징으로 한다.
상기 제1음성인식장치는 상기 제2음성인식장치가 전송한 서비스 수행결과를 사용자에게 제공하는 단계를 더 포함할 수 있다.
상기 복수의 음성인식장치들은 각각 네트워크로 연결된 모든 음성인식장치들의 장치능력 정보 및 서비스 도메인 정보 중 적어도 하나를 저장하는 단계를 더 포함할 수 있다.
상기 제1음성인식장치는 서비스 도메인 정보 및 장치능력 정보 중 적어도 하나를 기초로 상기 요청 서비스를 수행할 수 있는 음성인식장치를 선택할 수 있다.
상기 제2음성인식장치가 상기 수신한 음성신호에 포함된 정보를 파악할 수 없을 경우 상기 음성신호를 서버에 전송하고, 상기 서버가 상기 음성신호에 포함된 요청 서비스를 파악하고, 그 수행결과를 수신할 수 있다.
본 발명의 실시예에 따른 기록매체는 상기 음성인식방법을 수행하는 프로그램을 기록하고 있는 것을 특징으로 한다.
스마트 TV, 스마트폰 등과 같은 음성인식 장치의 물리적 마이크로폰 특성으로 발생하는 음성인식 거리의 한계를 극복하고 음성인식이 가능한 공간적 범위를 확대하여 사용자에게 더욱 많은 장소에서 다양한 음성인식 서비스 제공이 가능하다.
다양한 사물인터넷(IoT; Internet of Things) 장치가 가정 내에 사용되고 있으며, 스마트폰 등 컨트롤 기기를 통한 제어로 편리한 시스템들이 도입되고 있다. 가정 내에서 음성인식이 가능한 공간을 더욱 확장할 수 있다면, 많은 사물인터넷 장치들이 음성인식을 통해 더욱 쉽고 편리한 컨트롤이 가능하다.
사용되는 음성인식의 서비스 기능을 각각 장치마다 개별적으로 사용하는 것이 아니라 상호 간의 기능을 공유하여 더욱더 다양한 음성 인식 서비스 제공을 할 수 있다.
음성인식을 통해 제공되는 서비스의 도메인이 적은 장치는 장치들 간의 기능 공유를 통해 풍부한 도메인의 서비스 제공이 가능하다. 따라서, 음성인식 장치를 구매하려는 고객은 음성 인식 장치 간 네트워크 클러스터 구성 지원이 가능한 장치를 선호할 것이다.
도 1은 본 발명의 제1실시예에 따른 음성인식시스템을 나타내는 블록도,
도 2는 본 발명의 제2실시예에 따른 음성인식시스템을 나타내는 블록도,
도 3은 본 발명의 제2실시예에 따른 서버의 구성을 나타내는 블록도,
도 4는 본 발명의 제1실시예에 따른 음성인식방법을 나타내는 순서도,
도 5는 본 발명의 제2실시예에 따른 음성인식방법을 나타내는 순서도,
도 6은 본 발명의 제3실시예에 따른 음성인식방법을 나타내는 순서도,
도 7은 본 발명의 제4실시예에 따른 음성인식방법을 나타내는 순서도, 및
도 8 내지 12는 각각 본 발명의 음성인식방법에 따른 시나리오를 나타내는 모식도이다.
이하, 본 발명의 일 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명의 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시예의 다양한 변경 (modification), 균등물 (equivalent), 및/또는 대체물 (alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 명세서에서, “가진다,” “가질 수 있다,”“포함한다,” 또는 “포함할 수 있다” 등의 표현은 해당 특징 (예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 명세서에서, “A 또는 B,”“A 또는/및 B 중 적어도 하나,”또는 “A 또는/및 B 중 하나 또는 그 이상”등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, “A 또는 B,” “ A 및 B 중 적어도 하나,”또는 “ A 또는 B 중 적어도 하나”는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 명세서에서 “제 1,”“제 2,”“첫째,”또는“둘째,”등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 이러한 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 개시의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소 (예: 제 1 구성요소)가 다른 구성요소 (예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어 ((operatively or communicatively) coupled with/to)" 있다거나 "접속되어 (connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소 (예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소 (예: 제 1 구성요소)가 다른 구성요소 (예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 어떤 구성요소와 다른 구성요소 사이에 다른 구성요소 (예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 명세서에서 사용된 표현 “~하도록 구성된 (또는 설정된)(configured to)”은 상황에 따라, 예를 들면, “~에 적합한 (suitable for),” “~하는 능력을 가지는 (having the capacity to),” “~하도록 설계된 (designed to),” “~하도록 변경된 (adapted to),” “~하도록 만들어진 (made to),”또는 “~를 할 수 있는 (capable of)”과 바꾸어 사용될 수 있다. 용어 “~하도록 구성 (또는 설정)된”은 하드웨어적으로 “특별히 설계된 (specifically designed to)”것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, “~하도록 구성된 장치”라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 “~할 수 있는” 것을 의미할 수 있다. 예를 들면, 문구 “A, B, 및 C를 수행하도록 구성 (또는 설정)된 제어부”는 해당 동작을 수행하기 위한 전용 제어부 (예: 임베디드 제어부), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 제어부 (generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 명세서에서 사용된 용어들은 단지 특정일 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있을 수 있다. 일반적으로 사용되는 사전에 정의된 용어들은 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미가 있는 것으로 해석될 수 있으며, 본 명세서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 명세서에서 정의된 용어일지라도 본 개시의 실시 예들을 배제하도록 해석될 수 없다.
도 1은 본 발명의 실시예에 따른 음성인식시스템(1)을 나타내는 블록도이다.
도 1을 참조하면, 음성인식시스템(1)은 홈, 건물, 빌딩, 사무실 등 특정 공간 내의 환경 내에 네트워크 클러스터, 예를 들면 사물인터넷(IoT; Internet of Things)으로 연결된 제1 내지 제4음성인식장치들(100,200, 300, 400)을 포함한다. 도 1에서, 음성인식시스템(1)은 4개의 음성인식장치(100,200, 300, 400)로 구성하였지만, 2개, 3개, 또는 5개 이상으로 구현될 수 있다. 여기서, 4개의 음성인식장치(100,200, 300, 400)는 사물인터넷으로 서로 연결되고 음성인식기능을 가진, 예를 들면 냉장고, TV, 스마트폰, 오디오, 컴퓨터, 세탁기, 전기오븐, 조명등, 자동차 등으로 구현된다. 이하, 설명의 편의상 제1음성인식장치(100)는 웨이크업 워드(Wakeup Word)'지펠'로 설정된 냉장고, 제2음성인식장치(200)는 웨이크업 워드(Wakeup Word)'파브'로 설정된 스마트TV, 제3음성인식장치(300)는 웨이크업 워드(Wakeup Word)'갤럭시'로 설정된 스마트폰, 제4음성인식장치(400)는 웨이크업 워드(Wakeup Word)'하이브'로 설정된 음향서비스장치를 예로 들어 설명한다.
제1음성인식장치(100)는 제1마이크로폰(110), 제1통신부(120), 제1제어부(130), 제1음성인식부(140), 제1저장부(150) 및 제1출력부(160)를 포함한다. 물론, 제1음성인식장치(100)는 냉장고로서 상술한 구성 이외의 부품들을 포함할 수 있다.
제1마이크로폰(110)은 사용자의 음성신호를 수신한다. 마이크로폰(100)은 음파 또는 초음파의 진동에 따른 전기신호를 발생한다. 마이크로폰(100)은 예를 들면 카본형(탄소립형), 크리스탈형(결정형), 다이나믹형(가동코일형), 콘덴서형(축전기형), 반도체형 등을 포함한다.
제1통신부(120)는 제2 내지 제4음성인식장치(200,300,400)와 통신 연결되어 각종 데이터, 예를 들면 음성신호, 서비스 처리결과 등을 송수신한다. 제1통신부(120)는 2G, 3G, 4G, 롱텀에볼루션(LTE)와 같은 이동 통신, Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등의 무선인터넷 모듈, 및 RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등의 근거리 통신모듈을 포함할 수 있다.
제1제어부(130)는 제1음성인식장치(100)의 각 부품들, 예를 들면 제1마이크로폰(110), 제1통신부(120), 제1음성인식부(140), 제1저장부(150), 제1출력부(160)를 전반적으로 제어한다. 제1제어부(130)는 중앙처리유닛(CPU), 마이크로 프로세싱 유닛(MPU), ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays), 마이크로 컨트롤러(micro-controllers), 마이크로 제어부(microprocessors) 등을 포함하는 컨트롤보드로 구현된다. 제1제어부(130)는 하드웨어뿐만 아니라 제1음성인식장치(100)의 운영체제(OS)와 같은 소프트웨어를 포함할 수 있다. 제1제어부(130)는 제1마이크로폰(110) 또는 제1통신부(120)를 통해 수신된 음성신호에 포함된 사용자 요청 서비스를 처리하고 그 결과를 제1출력부(160)를 통해 사용자에게 제공하거나 제1통신부(120)를 통해 음성신호를 전송한 다른 음성인식장치에 전송한다.
제1음성인식부(140)는 음성신호를 수신하여 음성인식 처리를 수행하는 기능을 한다. 음성인식 기능은 음성신호를 언어 데이터로 변환하는 일련의 과정으로써 제1음성인식부(140)는 공지의 다양한 음성인식 방법에 따라 음성신호를 언어 데이터로 변환하여 출력할 수 있다. 한편, 제1마이크로폰(110)를 통해 수신되는 음성신호는 음성인식을 목표로 한 사용자의 음성 이외에 다양한 노이즈를 포함할 수 있으므로, 주파수 분석 등의 전처리 과정을 통해 사용자의 음성 성분만을 추출하고, 추출된 음성 성분에 대해 음성인식 처리를 수행할 수 있다. 제1음성인식부(140)는 음성인식엔진으로 구현될 수 있다. 음성인식엔진을 통한 음성 인식 방법은 공지의 다양한 방법이 존재하므로, 이에 대한 설명은 생략하기로 한다.
제1음성인식부(140)는 제1음성인식장치(100) 내부에 마련되는 임베디드형 엔진으로 구현될 수 있으며, 별도의 하드웨어로 구현되거나, 제1제어부(130)에 의해 실행되는 소프트웨어로 구현될 수도 있다. 이러한 임베디드형 엔진은 정해진 수의 특정한 어휘만을 인식 가능할 수 있다. 예를 들어, 제1음성인식장치(100)가 냉장고로 구현되는 경우, 냉장고를 제어하기 위한 사용자의 음성입력을 인식하는 용도로 활용될 수 있다. 냉장고가 사용자에게 제공할 수 있는 서비스는 요리 레시피, 냉장실 또는 냉동실 온도 정보, 음식물 보관 정보 등이 있다. 사용자가 '지펠, 제1냉장실 1도 업', '지펠, 제2냉장실 오프', '지펠, 저지방 레시피 좀 알려줘', '지펠, 보관 중인 식품과 관련된 레시피 좀 알려 줘', '지펠, 구입할 식품 좀 알려 줘' 등의 음성을 입력하는 경우에, 제1음성인식부(140)는 음성신호를 인식하여 사용자가 요청하는 서비스 정보 또는 사용자 명령(이하 '요청 서비스'로 칭함)를 파악한다. 여기서, '지펠'은 서비스 요청 대상, 즉 냉장고를 식별하는 웨이크업 워드이다. 이때, 제1음성인식부(140)는 사용자 발화음성 중 '지펠'이라는 웨이크업 워드를 인식하여 서비스를 요청하는 장치가 제1음성인식장치(100, 냉장고)라는 것을 파악할 수 있다. 이와 같이, 제1음성인식장치(100, 냉장고)는 자신만의 서비스 도메인, 즉 요리 레시피, 냉장실 또는 냉동실 온도 정보, 음식물 보관 정보 등으로 인식능력이 특화되어 있다.
만일 사용자가 냉장고가 있는 장소인 부엌에서 일을 하면서 드라마를 보거나 음악을 듣고자 '갤럭시, 지금 방송 중인 드라마 보여줘' 또는 '갤럭시, 내가 좋아하는 음악 들려줘'라고 제1음성인식장치(100, 냉장고)의 마이크로폰(110)에 입력하면, 음성인식부(140)는 발화음성에 대한 음성신호를 분석하여 '갤럭시'라는 웨이크업 워드를 파악한다. 이때, 음성인식부(140)는 파악한 웨이크업 워드가 '갤럭시'라는 사실을 제1제어부(130)에 전송한다. 제1제어부(130)는 제1통신부(120)를 통해 '갤럭시'에 해당하는 제3음성인식장치(300, 스마트폰)에 음성신호를 전송한다. 제1음성인식장치(100)는 냉장고에 특화된 서비스 도메인을 포함하고 있지만 제1음성인식부(140)의 언어인식능력은 냉장고로만 한정될 수도 있고, 네트워크에 연결된 스마트TV, 스마트폰, 음향서비스장치 등과 관련된 언어인식능력을 가질 수도 있다. 만일 제1음성인식부(140)의 언어인식능력이 냉장고로만 한정될 경우에 사용자가 발화한 '갤럭시, 지금 방송 중인 드라마 보여줘' 또는 '갤럭시, 내가 좋아하는 음악 들려줘'에서 '갤럭시'라는 웨이크업 워드를 제외한 구문은 인식할 수 없으므로, 수신된 음성신호를 그대로 제3음성인식장치(300)로 전송한다. 만일 음성인식부(140)가 네트워크에 연결된 스마트TV, 스마트폰, 음향서비스장치 등과 관련된 언어인식능력도 가질 경우 제1음성인식부(140)는 웨이크업 워드뿐만 아니라 구문 자체를 인식하여 음성신호에 포함된 사용자 요청 서비스를 파악할 수 있다. 따라서, 제1제어부(130)는 음성신호가 아닌 파악된 요청 서비스 정보를 전송하는 것도 가능하다.
사용자 발화 음성은 웨이크업 워드를 필수적으로 포함할 필요는 없다. 만일 웨이크업 워드가 없을 경우 음성신호에 포함된 요청 서비스 정보를 파악하여 서비스 처리가 가능한 다른 음성인식장치를 선택할 수 있다. 이때, 제1음성인식장치(100)는 네트워크로 연결된 스마트TV, 스마트폰, 음향서비스장치 등의 서비스 도메인 정보 및 장치능력 정보를 제1저장부(150)에 저장한 후 서비스 처리가 가능한 장치를 선택할 수 있다.
만일 음성인식부(140)가 사용자 음성신호 자체를 인식할 수 없을 경우 음성신호를 네트워크로 연결된 모든 스마트TV, 스마트폰, 음향서비스장치에 전송한다. 이때, 이를 수신한 스마트TV, 스마트폰, 음향서비스장치는 자신 인식할 수 있을 경우 인식하여 서비스를 처리한 후에 음성신호를 보낸 제1음성인식장치(100)로 서비스 결과를 전송한다. 만일, 스마트TV, 스마트폰, 음향서비스장치 중 수신한 음성신호를 인식할 수 없을 경우는 자신과 관련 없는 음성신호로 판단하여 종료한다.
제1저장부(150)는 한정되지 않은 데이터가 저장된다. 제1저장부(150)는 제1제어부(130) 및 제1음성인식부(140)에 의해 액세스 되며, 이들에 의한 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다. 제1저장부(150)에 저장되는 데이터는, 예를 들면 웨이크업 워드 관련 데이터, 자신 및 네트워크로 연결된 다른 음성인식장치들의 장치능력 정보(출력장치 정보 포함)와 서비스 도메인 정보 등을 포함한다. 물론, 제1저장부(150)는 운영체제, 운영체제상에서 실행 가능한 다양한 애플리케이션, 소프트웨어, 영상데이터, 부가데이터 등을 포함한다.
제1저장부(150)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
제1출력부(160)는 사용자에게 정보, 즉 서비스 처리결과를 제공한다. 제1출력부(160)는 디스플레이, 스피커 등으로 구현된다. 냉장고의 경우 중형 크기의 디스플레이와 소형 스피커가 장착될 수 있다.
제2음성인식장치(200)는 제2마이크로폰(210), 제2통신부(220), 제2제어부(230), 제2음성인식부(240), 제2저장부(250) 및 제2출력부(260)를 포함한다. 물론, 제2음성인식장치(200)는 스마트TV로서 상술한 구성 이외의 부품들을 포함할 수 있다. 스마트TV로 구현되는 제2음성인식장치(200)는 제2마이크로폰(210) 또는 제2통신부(220)를 통해 수신된 음성신호를 인식하여 음성신호에 포함된 스마트TV와 관련 요청 서비스를 처리한다. 음성신호가 제2마이크로폰(210)을 통해 수신되었으면 처리된 서비스 결과를 제2출력부(260), 예를 들면 디스플레이, 스피커를 통해 사용자에게 제공한다. 음성신호가 제2통신부(220)을 통해 다른 음성인식장치에서 수신되었으면 처리된 서비스 결과를 제2통신부(220)를 통해 다른 음성인식장치로 전송한다.
제3음성인식장치(300)는 제3마이크로폰(310), 제3통신부(320), 제3제어부(330), 제3음성인식부(340), 제3저장부(350) 및 제3출력부(360)를 포함한다. 물론, 제3음성인식장치(300)는 스마트폰으로서 상술한 구성 이외의 부품들을 포함할 수 있다. 스마트폰으로 구현되는 제3음성인식장치(300)는 제3마이크로폰(310) 또는 제3통신부(320)를 통해 수신된 음성신호를 인식하여 음성신호에 포함된 스마트폰과 관련 요청 서비스를 처리한다. 음성신호가 제3마이크로폰(310)을 통해 수신되었으면 처리된 서비스 결과를 제3출력부(360), 예를 들면 디스플레이, 스피커를 통해 사용자에게 제공한다. 음성신호가 제3통신부(320)을 통해 다른 음성인식장치에서 수신되었으면 처리된 서비스 결과를 제3통신부(320)를 통해 다른 음성인식장치로 전송한다.
제4음성인식장치(400)는 제4마이크로폰(410), 제4통신부(420), 제4제어부(430), 제4음성인식부(440), 제4저장부(450) 및 제4출력부(460)를 포함한다. 물론, 제4음성인식장치(400)는 음향서비스장치로서 상술한 구성 이외의 부품들을 포함할 수 있다. 음향서비스장치로 구현되는 제4음성인식장치(400)는 제4마이크로폰(410) 또는 제4통신부(420)를 통해 수신된 음성신호를 인식하여 음성신호에 포함된 음향서비스장치와 관련 요청 서비스를 처리한다. 음성신호가 제4마이크로폰(410)을 통해 수신되었으면 처리된 서비스 결과를 제4출력부(460), 예를 들면 스피커를 통해 사용자에게 제공한다. 음성신호가 제4통신부(420)을 통해 다른 음성인식장치에서 수신되었으면 처리된 서비스 결과를 제4통신부(420)를 통해 다른 음성인식장치로 전송한다.
제1 내지 제4음성인식장치(100, 200, 300, 400)는 각각 자신만의 서비스 도메인과 처리능력을 갖는다. 예를 들면, 냉장고로 구현되는 제1음성인식장치(100)는 예를 들면 요리 레시피 제공, 냉장실 또는 냉동실 온도 정보 제공, 음식물 보관 정보 제공 등의 서비스 도메인을 가질 수 있으며, 네트워크로 연결된 제2 내지 제4음성인식장치(200, 300, 400)는 이 서비스 도메인 정보를 갖고 있다. 스마트 TV로 구현되는 제2음성인식장치(200)는 방송채널정보 제공, 컨텐츠 검색, 제어기능, 방송프로그램 예약 등의 서비스 도메인을 가질 수 있으며, 네트워크로 연결된 제1, 제3 및 제4음성인식장치(100, 300, 400)는 이 서비스 도메인 정보를 갖고 있다. 스마트폰으로 구현되는 제3음성인식장치(300)는 전화 걸기, 날씨 정보 제공, 뉴스 기사 검색, 알람 설정, 음악듣기 등의 서비스 도메인을 가질 수 있으며, 네트워크로 연결된 제1, 제2 및 제4음성인식장치(100, 200, 400)는 이 서비스 도메인 정보를 갖고 있다. 음향서비스장치로 구현되는 제4음성인식장치(400)는 음악듣기, 오디오 북 읽어주기, 지식검색 등의 서비스 도메인을 가질 수 있으며, 네트워크로 연결된 제1, 제2 및 제3음성인식장치(100, 200, 300)는 이 서비스 도메인 정보를 갖고 있다.
제1 내지 제4음성인식장치(100, 200, 300, 400)는 각각 자신만의 출력부(160, 260, 360, 460)를 갖는다. 예를 들면, 냉장고로 구현되는 제1음성인식장치(100)는 스피커와 중형디스플레이를 가진다. 스마트 TV로 구현되는 제2음성인식장치(200)는 스피커, 대형디스플레이를 가진다. 스마트폰으로 구현되는 제3음성인식장치(300)는 스피커, 소형 디스플레이를 가진다. 음향서비스장치로 구현되는 제4음성인식장치(400)는 디스플레이 없이 스피커만 가질 수 있다.
도 2는 본 발명의 제2실시예에 따른 음성인식시스템(1)의 블록도이다. 도 2의 음성인식시스템(1)에서 제1 내지 제4음성인식장치(100~400)는 도 1의 구성과 유사하므로 별도의 설명은 생략한다. 물론, 제1 내지 제4음성인식장치(100~400)의 각 제1 내지 제4음성인식부(140, 240, 340, 440)의 능력이나 요청 서비스 처리능력이 부족하여 제1 내지 제4음성인식장치(100~400)에 각각 연결된 서버(500-1, 500-2, 500-3, 500-4)를 이용한다는 점이 다르다. 이때, 제1 내지 제4음성인식장치(100~400)는 웨이크업 워드만을 인식할 수 있으면 충분하다. 제2실시예에 따른 음성인식시스템(1)에서 제1 내지 제4음성인식장치(100~400)가 모두 서버를 통해 음성인식이나 요청 서비스를 처리할 필요는 없다. 예를 들면 스마트폰으로 구현되는 음성인식장치(300)는 충분한 음성인식능력과 서비스 처리 능력이 있기 때문에 서버(500-3)를 생략할 수 있다.
도 3은 제1서버(500-1)의 기본적인 구성을 나타내는 블록도이다. 도 3에 나타낸 바와 같이, 제1서버(500-1)는 서버통신부(520), 서버제어부(530), 서버음성인식부(540), 및 서버저장부(550)를 포함한다. 도 3에서 제2 내지 제4서버(500-2, 500-3, 500-4)의 구성은 제1서버(500-1)와 유사하므로 설명을 생략한다.
서버통신부(520)는 연결된 음성인식장치(100)로부터 음성신호를 수신한다. 서버통신부(520)는 VDSL, 이더넷, 토큰링, HDMI(high definition multimedia interface), USB, 컴포넌트(component), LVDS, HEC 등의 데이터통신, 2G, 3G, 4G, 롱텀에볼루션(LTE)와 같은 이동 통신, WLAN (Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등의 무선인터넷 기술, 및 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등의 근거리 통신 기술을 적용할 수 있다.
서버제어부(530)는 서버의 각 부품을 제어한다. 서버제어부(530)는 수신되어 인식된 음성신호의 요청서비스를 처리한 후 서버통신부(520)를 통해 음성인식장치(100)에 제공한다. 서버제어부(530)는 중앙처리유닛(CPU), 마이크로 프로세싱 유닛(MPU), ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays), 마이크로 컨트롤러(micro-controllers), 마이크로 제어부(microprocessors) 등을 포함하는 컨트롤보드로 구현된다. 서버제어부(530)는 하드웨어뿐만 아니라 운영체제(OS)와 같은 소프트웨어를 포함할 수 있다.
서버음성인식부(540)는 음성인식엔진으로 구현될 수 있다. 음성인식엔진은 임베디드형 엔진으로 구현될 수 있으며, 별도의 하드웨어로 구현되거나, 서버제어부(530)에 의해 실행되는 소프트웨어로 구현될 수도 있다. 임베디드형 엔진은 정해진 수의 특정한 어휘 만을 인식 가능할 수 있다. 예를 들어, 제1음성인식장치(100)가 냉장고로 구현되는 경우, 냉장고를 제어하기 위한 사용자의 음성입력을 인식하는 용도로 활용될 수 있다.
서버저장부(550)는 예를 들면 서버음성인식부(540)에서 사용하는 데이터를 저장한다. 서버저장부(550)는 음성신호에 포함된 요청서비스 처리결과 데이터 정보를 포함한다. 물론, 서버저장부(550)는 운영체제, 운영체제 상에서 실행 가능한 다양한 애플리케이션, 소프트웨어, 영상데이터, 부가데이터 등을 포함한다.
이하 본 발명의 음성인식방법을 도 4 내지 6을 참조하여 상세히 설명하면 다음과 같다. 음성인식방법은 사용자가 발화한 음성의 음성신호에 웨이크업 워드가 포함되고 음성인식부가 웨이크업 워드를 인식하여 음성인식장치를 지정하는 방법(도 4 참조), 사용자가 발화한 음성의 음성신호에 웨이크업 워드가 없고 음성인식부가 음성신호에 포함된 요청서비스 정보를 파악하고, 이 요청서비스 정보를 이용하여 음성인식장치를 지정하는 방법(도 5 참조), 사용자가 발화한 음성의 음성신호에 웨이크업 워드가 없고 음성인식부가 연결된 모든 음성인식장치의 서비스 도메인의 음성을 인식할 수 있고, 요청 서비스 처리가 안될 경우 네트워크로 연결된 모든 음성인식장치들에 전송하는 방법(도 6 참조), 및 사용자가 발화한 음성의 음성신호에 웨이크업 워드가 없고 음성인식부가 자신의 서비스 도메인의 음성만을 인식할 수 있고, 음성인식이 안될 경우 네트워크로 연결된 모든 음성인식장치들에 전송하는 방법(도 7 참조)으로 구분한다.
도 4는 본 발명의 제1실시예에 따른 음성인식방법을 나타내는 순서도이다.
단계 S110에서, 특정 공간, 예를 들면 가옥 내에 설치된 복수의 음성인식장치들을 사물인터넷(IoT)으로 연결하여 클러스터를 구성한다.
단계 S120에서, 복수의 음성인식장치들 중 어느 하나(이하 '제1음성인식장치'라 칭함)가 사용자로부터 음성신호를 수신한다. 여기서, 음성신호에는 복수의 음성인식장치 중 사용자가 서비스 요구 또는 기능제어를 원하는 음성인식장치(이하 '제2음성인식장치'라 칭함)에 해당하는 웨이크업 워드를 포함하고 있다. 예를 들면 사용자는 냉장고에 부착된 디스플레이를 통해 드라마를 보고 싶으면, 냉장고의 마이크로폰을 통해'파브, 드라마를 보여줘'라고 요청한다.
단계 S130에서, 제1음성인식장치의 음성인식부는 음성신호에 포함된 웨이크업 워드를 파악한다. 예를 들면, '파브, 드라마를 보여줘'에서 '파브'라는 웨이크업 워드를 추출한다.
단계 S140에서, 제1음성인식장치의 제어부는 복수의 음성인식장치들 중 '파브'에 해당하는 제2음성인식장치를 선택한다.
단계 S150에서, 제1음성인식장치의 통신부는 '파브'에 해당하는 제2음성인식장치에 음성신호를 전송한다.
단계 S160에서, 제2음성인식장치의 음성인식부는 음성신호에 포함된 요청 서비스를 파악하여 서비스를 처리한다. 만일, 드라마에 대한 구체적인 지시가 없을 경우에는 제1음성인식장치에 드라마 리스트를 보낸다. 만일 음성신호에 특정 드라마를 지정하였을 경우에는 다음단계로 넘어간다.
단계 S170에서, 사용자는 제1음성인식장치에서 드라마 리스트 중 하나를 선택하면, 드라마 선택 정보를 제2음성인식장치로 전송하고, 제2음성인식장치는 선택된 드라마를 스트림 또는 다운로드 방식으로 제1음성인식장치에 전송한다. 여기서, 제2음성인식장치는 제1음성인식장치의 장치능력과 출력부 사양을 알고 있다는 전제하에 적절한 드라마 데이터를 제공한다, 예를 들면 제1음성인식장치가 작은 메모리 용량을 가질 경우에는 스트림으로 전송하고, 저화질 또는 고화질 드라마 영상데이터를 선택하여 전송할 수 있다. 만일 제1음성인식장치가 디스플레이가 없을 경우에는 오디오 데이터만 분리하여 전송할 수 있다.
단계 S180에서, 제1음성인식장치는 전송된 드라마를 디스플레이 및/또는 스피커로 출력하여 사용자에게 제공한다.
이와 같이, 사용자가 음성 명령에 원하는 음성인식장치에 해당하는 웨이크업 워드를 포함시킬 경우 각 음성인식장치의 음성인식부는 자신의 서비스 도메인 영역만을 인식하여도 충분하므로 인식 정밀도를 향상시킬 수 있다.
도 5는 본 발명의 제2실시예에 따른 음성인식방법을 나타내는 순서도이다.
단계 S210에서, 특정 공간, 예를 들면 가옥 내에 설치된 복수의 음성인식장치들을 사물인터넷(IoT)으로 연결하여 클러스터를 구성한다.
단계 S220에서, 복수의 음성인식장치들 중 어느 하나(제1음성인식장치)가 사용자로부터 음성신호를 수신한다. 여기서, 음성신호에는 복수의 음성인식장치 중 사용자가 서비스 요구 또는 기능제어를 원하는 음성인식장치(제2음성인식장치)에 해당하는 웨이크업 워드를 포함하고 있지 않다. 예를 들면 사용자는 냉장고에 부착된 디스플레이를 통해 드라마를 보고 싶으면, 냉장고의 마이크로폰을 통해'드라마를 보여줘'라고 요청한다.
단계 S230에서, 제1음성인식장치의 음성인식부는 음성신호에 포함된 요청 서비스를 파악한다. 예를 들면, '드라마를 보여줘'에서 '드라마 제공 서비스'라는 서비스 도메인을 파악한다.
단계 S240에서, 제1음성인식장치의 제어부는 복수의 음성인식장치들 중 드라마 제공 서비스를 처리할 수 있는 제2음성인식장치를 선택한다. 여기서, 제2음성인식장치 선택은 제1음성인식장치의 저장부에 제2음성인식장치의 서비스 도메인정보가 저장되고, 파악된 서비스 도메인과 저장부에 저장된 서비스 도메인을 비교하여 매칭되는 제2음성인식장치를 선택한다. 물론, 서비스 도메인은 복수의 음성인식장치들이 동시에 가능할 경우 복수의 음성인식장치를 선택하거나 우선순위를 제공하여 선택할 수도 있다.
단계 S250에서, 제1음성인식장치의 통신부는 음성신호 또는 요청 서비스 정보를 선택된 제2음성인식장치에 음성신호를 전송한다.
단계 S260에서, 제2음성인식장치의 음성인식부는 음성신호를 수신하였을 경우 음성신호에 포함된 요청 서비스를 파악하여 서비스를 처리한다. 만일 요청서비스 정보를 수신할 경우에는 바로 서비스를 처리한다. 드라마에 대한 구체적인 지시가 없을 경우에는 제1음성인식장치에 드라마 리스트를 보낸다. 만일 특정 드라마를 지정하였을 경우에는 다음 단계로 넘어간다.
단계 S270에서, 사용자는 제1음성인식장치에서 드라마 리스트 중 하나를 선택하면, 드라마 선택 정보를 제2음성인식장치로 전송하고, 제2음성인식장치는 선택된 드라마를 스트림 또는 다운로드 방식으로 제1음성인식장치에 전송한다. 여기서, 제2음성인식장치는 제1음성인식장치의 장치능력과 출력부 사양을 알고 있다는 전제하에 적절한 드라마 데이터를 제공한다, 예를 들면 제1음성인식장치가 작은 메모리 용량을 가질 경우에는 스트림으로 전송하고, 저화질 또는 고화질 드라마 영상데이터를 선택하여 전송할 수 있다. 만일 제1음성인식장치가 디스플레이가 없을 경우에는 오디오 데이터만 분리하여 전송할 수 있다.
단계 S280에서, 제1음성인식장치는 전송된 드라마를 디스플레이 및/또는 스피커로 출력하여 사용자에게 제공한다.
이와 같이, 제2실시예에 따른 음성인식방법은 사용자가 발화한 음성신호에서 네트워크로 연결된 복수 음성인식장치들 모두가 구문인식이 가능하여야만 사용자가 요청하는 요청서비스를 파악할 수 있고, 적절한 서비스 처리가 가능한 제2음성인식장치를 선택할 수 있다.
도 6은 본 발명의 제3실시예에 따른 음성인식방법을 나타내는 순서도이다.
단계 S310에서, 특정 공간, 예를 들면 가옥 내에 설치된 복수의 음성인식장치들을 사물인터넷(IoT)으로 연결하여 클러스터를 구성한다.
단계 S320에서, 복수의 음성인식장치들 중 어느 하나(이하 '제1음성인식장치'라 칭함)가 사용자로부터 음성신호를 수신한다. 여기서, 음성신호에는 복수의 음성인식장치 중 사용자가 서비스 요구 또는 기능제어를 원하는 음성인식장치(이하 '제2음성인식장치'라 칭함)에 해당하는 웨이크업 워드를 포함하고 있지 않다. 예를 들면 사용자는 냉장고에 부착된 디스플레이를 통해 드라마를 보고 싶으면, 냉장고의 마이크로폰을 통해'드라마를 보여줘'라고 요청한다.
단계 S330에서, 제1음성인식장치의 음성인식부는 음성신호에 포함된 요청 서비스를 파악한다. 예를 들면, '드라마를 보여줘'에서 '드라마 제공 서비스'라는 서비스 도메인을 파악한다.
단계 S340에서, 제1음성인식장치는 파악된 요청 서비스에 대해 처리가 가능한가를 판단한다.
만일 요청 서비스 처리가 가능하면, 단계 S350에서 요청 서비스를 처리하고, 단계 S390에서 서비스 처리결과를 디스플레이 또는 스피커를 통해 사용자에게 제공한다.
만일 요청 서비스 처리가 불가능하면, 단계 360에서, 제1음성인식장치의 제어부는 네트워크로 연결된 다른 모든 음성인식장치들로 서비스 처리 요청 또는 음성신호를 전송한다.
단계 S370에서, 네트워크로 연결된 다른 모든 음성인식장치들은 상기 서비스 처리 요청에 대해 처리가능 여부를 판단하여 서비스 처리를 할 수 없으면 종료하고 가능하면 서비스를 처리한다. 만일 음성신호로 수신할 경우 음성신호에 포함된 요청 서비스 내용을 파악하고, 파악할 수 없으면 종료한다. 만일 파악이 가능하면 서비스 처리 가능 여부를 판단하고, 서비스 처리가 가능하면 처리를 한다. 만일 요청서비스 정보에 드라마에 대한 구체적인 지시가 없을 경우에는 제1음성인식장치에 드라마 리스트를 보낸다. 만일 특정 드라마를 지정하였을 경우에는 다음 단계로 넘어간다.
단계 S380에서, 사용자는 제1음성인식장치에서 드라마 리스트 중 하나를 선택하면, 드라마 선택 정보를 제2음성인식장치로 전송하고, 제2음성인식장치는 선택된 드라마를 스트림 또는 다운로드 방식으로 제1음성인식장치에 전송한다. 여기서, 서비스 처리결과를 전송할 때 제1음성인식장치의 장치능력과 출력부 사양을 알고 있다는 전제하에 적절한 드라마 데이터를 제공한다, 예를 들면 제1음성인식장치다 작은 메모리 용량을 가질 경우에는 스트림으로 전송하고, 저화질 또는 고화질 드라마 영상데이터를 선택하여 전송할 수 있다. 만일 제1음성인식장치가 디스플레이가 없을 경우에는 오디오 데이터만 분리하여 전송할 수 있다.
단계 S390에서, 제1음성인식장치는 전송된 드라마를 디스플레이 및/또는 스피커로 출력하여 사용자에게 제공한다.
이와 같이, 제3실시예에 따른 음성인식방법은 사용자가 발화한 음성신호에서 네트워크로 연결된 복수 음성인식장치들 각자가 자신의 서비스 도메인에 한정된 서비스 처리 능력만 가질 경우에 서비스 처리가 어려우면 모든 연결된 음성인식장치들에 전송하여 처리를 요청할 수 있다.
도 7은 본 발명의 제4실시예에 따른 음성인식방법을 나타내는 순서도이다.
단계 S410에서, 특정 공간, 예를 들면 가옥 내에 설치된 복수의 음성인식장치들을 사물인터넷(IoT)으로 연결하여 클러스터를 구성한다.
단계 S420에서, 복수의 음성인식장치들 중 어느 하나(제1음성인식장치)가 사용자로부터 음성신호를 수신한다. 여기서, 음성신호에는 복수의 음성인식장치 중 사용자가 서비스 요구 또는 기능제어를 원하는 음성인식장치(제2음성인식장치)에 해당하는 웨이크업 워드를 포함하고 있지 않다. 예를 들면 사용자는 냉장고에 부착된 디스플레이를 통해 드라마를 보고 싶으면, 냉장고의 마이크로폰을 통해'드라마를 보여줘'라고 요청한다.
단계 S430에서, 제1음성인식장치의 음성인식부는 음성신호에 포함된 요청 서비스를 파악한다. 예를 들면, '드라마를 보여줘'에서 '드라마 제공 서비스'라는 서비스 도메인을 파악한다.
만일 요청 서비스 파악이 가능하면, 단계 S440에서 요청 서비스를 처리하고, 단계 S480에서 서비스 처리결과를 디스플레이 또는 스피커를 통해 사용자에게 제공한다. 여기서, 제1음성인식장치는 음성신호로부터 요청 서비스를 파악할 수 있으면 서비스 처리도 가능하다는 전제이다.
만일 요청 서비스 파악이 불가능하면, 단계 450에서, 제1음성인식장치의 제어부는 네트워크로 연결된 다른 모든 음성인식장치들로 음성신호를 전송한다.
단계 S460에서, 네트워크로 연결된 다른 모든 음성인식장치들은 상기 요청 서비스가 처리 가능한지 판단하여 처리할 수 없으면 종료한다. 만일 처리 가능하면 요청 서비스 처리를 한다. 만일 요청서비스 정보에 드라마에 대한 구체적인 요청이 없을 경우에는 제1음성인식장치에 드라마 리스트를 보낸다. 만일 특정 드라마를 지정하였을 경우에는 다음단계로 넘어간다.
단계 S470에서, 사용자는 제1음성인식장치에서 드라마 리스트 중 하나를 선택하면, 드라마 선택 정보를 제2음성인식장치로 전송하고, 제2음성인식장치는 선택된 드라마를 스트림 또는 다운로드 방식으로 제1음성인식장치에 전송한다. 여기서, 서비스 처리결과를 전송할 때 제1음성인식장치의 장치능력과 출력부 사양을 알고 있다는 전제하에 적절한 드라마 데이터를 제공한다, 예를 들면 제1음성인식장치가 작은 메모리 용량을 가질 경우에는 스트림으로 전송하고, 저화질 또는 고화질 드라마 영상데이터를 선택하여 전송할 수 있다. 만일 제1음성인식장치가 디스플레이가 없을 경우에는 오디오 데이터만 분리하여 전송할 수 있다.
단계 S480에서, 제1음성인식장치는 전송된 드라마를 디스플레이 및/또는 스피커로 출력하여 사용자에게 제공한다.
이와 같이, 제4실시예에 따른 음성인식방법은 사용자가 발화한 음성신호에서 네트워크로 연결된 복수 음성인식장치들 각자가 자신의 서비스 도메인에 한정된 서비스 처리 능력만을 가질 경우에 모든 연결된 음성인식장치들에 전송하여 처리를 요청할 수 있다.
도 8은 본 발명의 실시예에 따른 음성인식시스템(1)의 서비스 시나리오를 나타내는 모식도이다. 복수의 음성인식장치들 간 네트워크 구성을 통해 자신의 기능(인식 서비스 도메인, 능력(Capability), 웨이크업 워드, 출력장치 정보 등을 서로 공유한다.
장치1은 부엌에 배치된 음성인식이 가능한 냉장고로서, 웨이크업 워드를 '지펠'이라 칭한다. 장치1은 요리 레시피, 냉장실 또는 냉동실 온도 정보, 음식물 보관 정보, 냉장고 온도제어, 냉장고 기능 제어 등의 서비스 도메인을 가질 수 있다. 장치 1은 출력장치로서 스피커와 중형 디스플레이를 구비할 수 있다.
장치 2는 거실에 배치된 음성인식이 가능한 스마트TV로서, 웨이크업 워드를 '파브'라 칭한다. 장치2는 방송 채널 정보, 컨텐츠 검색, 제어기능(채널 업다운, 전원온오프 등), 방송프로그램 예약, 영상 전송 등의 서비스 도메인을 가질 수 있다. 장치 2는 출력장치로서 스피커와 대형 디스플레이를 구비할 수 있다.
장치3은 방1에 배치된 음성인식이 가능한 스마트폰으로서, 웨이크업 워드를 '갤럭시'라 칭한다. 장치3은 전화걸기, 날씨정보, 뉴스 기사 검색, 알람설정, 음악듣기 등의 서비스 도메인을 가질 수 있다. 장치 3은 출력장치로서 스피커와 소형 디스플레이를 구비할 수 있다.
장치4는 방 2에 배치된 음성인식이 가능한 음향서비스장치로서, 웨이크업 워드를 '하이브'라 칭한다. 장치3은 음악 서비스를 통한 음악듣기, 오지오북 읽어주기, 지식 검색 등의 서비스 도메인을 가질 수 있다. 장치 4는 출력장치로서 스피커를 구비할 수 있다.
도 9는 복수의 음성인식장치들 간 네트워크 구성 시에 웨이크업 워드를 이용하여 클러스터 간 음성인식장치를 식별하는 것을 나타낸 모식도이다. 사용자 발화를 모든 디바이스에게 전달한 후 수신 또는 분석을 통해 적절한 응답이 가능한 장치에게 사용자 발화 서비스를 요청하는 것이 가능할 수도 있으나, 웨이크업 워드를 통하여 해당 음성인식장치를 지정하면 작은 트래픽으로 빠른 사용자 서비스 처리가 가능하다
도 10은 음성 인식 장치 클러스터를 통해 사용자 발화 인식 범위의 확장하는 시나리오의 예를 나타내는 모식도이다. 마이크로폰의 특성상 인식 거리의 한계가 있으나, 음성 인식 장치 클러스터를 이용하여 사용자에 근접하고 있는 음성인식장치가 사용자의 발화 정보를 대신 전달이 가능하다. 이에 반해, 종래의 방법에 따른 전통적인 시나리오에서는 직접 방 1에 가서 스마트폰에 발화를 수행해야 기능하다. 도 10에 나타낸 바와 같이, ① 사용자가 장치1(냉장고)에서 '갤럭시, 오늘 날씨 어때'라고 발화하면, 장치1(냉장고)는 '갤럭시'라는 웨이크업 워드를 인지하여 장치3(갤럭시)에 발화를 전달한다. ② 장치3(갤럭시)는 요청 서비스인 날씨 정보를 장치1(냉장고)에 전달하고, ③ 장치1(냉장고)는 이를 디스플레이 또는 스피커를 통해 사용자에게 전달한다.
도 11은 음성인식장치 클러스터를 통해 사용자가 개별 음성인식장치로부터 풍부한 서비스를 받는 시나리오를 나타내는 모식도이다. 대부분의 음성인식장치는 음성인식 성능과 디바이스의 목적 등으로 인해 한정된 도메인의 서비스 제공만이 가능하다. 이에 반해, 본원 발명의 실시예에 의하면 음성인식장치 클러스터를 통해 다양의 서비스 제공이 가능하다. 스마트 TV 자체는 컨트롤 기능 및 단순한 컨텐츠 검색 정보 제공이 가능하나 본 발명의 스마트TV는 다음과 같이 다양한 시나리오로 서비스 제공이 가능하다. 스마트TV에 '지펠, 열량 낮은 음식 추천해 줄래?'라고 음성 입력하면 ① 장치1(냉장고)을 통해 요청 서비스를 받을 수 있다. 또한 장치2(스마트TV)에 '갤럭시, 오후 일정 알려줄래?'라고 음성 입력하면, ② 장치3(스마트폰)을 통해 요청 서비스를 받을 수 있다. 또한, 장치2(스마트TV)에 '하이브, 어린 왕자 오디오 북 읽어줘'라고 음성 입력하면, ③ 장치4(음향서비스장치)을 통해 요청 서비스를 받을 수 있다.
도 12는 음성인식장치의 출력 장치를 통해 업데이트된 정보를 수신하는 시나리오를 나타내는 모식도이다. 음성인식장치에 따라 출력 형태가 스피커(TTS) 만 또는 디스플레이만 있는 장치가 있을 경우, 디스플레이(또는 대형 디스플레이) 장치가 있는 음성인식장치를 통하여 좀더 풍부한 서비스 제공이 가능하다.
① 사용자가 장치1(냉장고)에 '갤럭시, 드라마A를 재생 해줄래?'라고 음성 입력하면, ② 장치3(스마트폰)에 음성신호를 전송하여 영상 재생 정보를 수신한 후, ③ 장치1(냉장고)의 디스플레이를 통해 시청할 수 있다. 즉, 사용자는 장치1(냉장고)에 구비된 중형 디스플레이를 통해 장치3(스마트폰)으로부터 영상정보를 볼 수 있다.
①' 사용자가 장치2(스마트 TV)에 '하이브, 어린 왕자 오디오북 읽어줘'라고 음성 입력하면, ②' 장치4(음향서비스장치)에 음성신호를 전송하여 오디오 정보 및 영상 정보를 수신한 후, ③' 장치2(스마트 TV)의 대형 디스플레이 및 스피커를 통해 보거나 들을 수 있다. 즉, 사용자는 장치4(음향서비스장치장치)의 스피커만을 통해 듣던 것을, 장치2(스마트TY)의 대형 디스플레이 및 스피커를 통해 서비스를 받을 수 있다.
이상과 같이 본 발명은 한정된 예시적 실시예와 도면을 통해 설명되었으나, 본 발명은 상기의 예시적 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
본 발명의 실시예에 따른 동작들은 단일 또는 복수의 제어부에 의해 그 동작이 구현될 수 있을 것이다. 이러한 경우 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령이 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판단 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM이나 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 본 발명에서 설명된 기지국 또는 릴레이의 전부 또는 일부가 컴퓨터 프로그램으로 구현된 경우 상기 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체도 본 발명에 포함된다.
그러므로 본 발명의 범위는 설명된 예시적 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
본 발명은 가정 또는 사무실 내에서 사물인터넷으로 연결된 각종 전자기기에 적용할 수 있다.

Claims (15)

  1. 음성인식장치에 있어서,
    사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰과;
    적어도 하나의 외부음성인식장치와 통신하는 통신부;
    상기 음성신호에 포함된 웨이크업 워드를 파악하는 음성인식부와;
    상기 파악된 웨이크업 워드에 해당하는 외부음성인식장치에 상기 음성신호를 전송하는 제어부를 포함하는 것을 특징으로 하는 음성인식장치.
  2. 제1항에 있어서,
    상기 통신부는 상기 음성신호를 전송한 외부음성인식장치로부터 상기 음성신호에 포함된 요청 서비스의 처리결과를 수신하는 것을 특징으로 하는 음성인식장치.
  3. 제2항에 있어서,
    상기 제어부는 상기 외부음성인식장치가 전송한 서비스 처리결과를 사용자에게 제공하는 출력부를 더 포함하는 것을 특징으로 하는 음성인식장치.
  4. 제1항에 있어서,
    상기 통신부는 상기 적어도 하나의 외부음성인식장치로부터 음성신호를 수신하는 것을 특징으로 하는 음성인식장치.
  5. 제4항에 있어서,
    상기 제어부는 상기 적어도 하나의 외부음성인식장치로부터 수신된 음성신호에 포함된 요청 서비스를 처리하는 것을 특징으로 하는 음성인식장치.
  6. 제 5항에 있어서,
    상기 제어부는 상기 처리된 서비스 결과를 상기 음성신호를 전송한 외부음성인식장치에 전송하는 것을 특징으로 하는 음성인식장치.
  7. 제6항에 있어서,
    상기 제어부는 상기 음성신호를 전송한 외부음성인식장치의 출력부 능력을 파악하여, 상기 출력부 능력에 적합한 서비스 처리결과를 전송하는 것을 특징으로 하는 음성인식장치.
  8. 제4항에 있어서,
    상기 제어부는 상기 음성인식부가 상기 음성신호에 포함된 요청 서비스 정보를 파악할 수 없을 경우 상기 통신부를 통해 상기 음성신호를 서버에 전송하고, 상기 서버로부터 상기 음성신호에 포함된 요청 서비스 정보 또는 요청 서비스 처리결과를 수신하는 것을 특징으로 하는 음성인식장치.
  9. 제1항에 있어서,
    상기 적어도 하나의 외부음성인식장치는 사물인터넷으로 연결되어 있는 것을 특징으로 하는 음성인식장치.
  10. 음성인식장치에 있어서,
    사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰과;
    적어도 하나의 외부음성인식장치와 통신하는 통신부;
    상기 음성신호에 포함된 요청 서비스를 파악하는 음성인식부와;
    상기 적어도 하나의 외부음성인식장치의 서비스 도메인 정보 및 장치능력 정보를 저장하는 저장부와;
    상기 서비스 도메인 정보 및 장치능력 정보를 기초로 상기 적어도 하나의 외부음성인식장치 중 상기 요청 서비스를 처리할 수 있는 외부음성인식장치를 선택하고, 선택된 외부음성인식장치에 상기 음성신호를 전송하는 제어부와;
    상기 선택된 외부음성인식장치가 상기 음성신호를 기초로 처리한 요청서비스를 상기 통신부를 통해 수신하여 출력하는 출력부를 포함하는 것을 특징으로 하는 음성인식장치.
  11. 제10항에 있어서,
    상기 통신부는 상기 적어도 하나의 외부음성인식장치로부터 음성신호를 수신하는 것을 특징으로 하는 음성인식장치.
  12. 음성인식장치에 있어서,
    사용자의 발화음성으로부터 음성신호를 수신하는 마이크로폰과;
    적어도 하나의 외부음성인식장치와 통신하는 통신부;
    상기 음성신호에 포함된 요청 서비스를 파악하는 음성인식부와;
    상기 음성신호로부터 요청 서비스를 파악할 수 없을 경우 상기 적어도 하나의 외부음성인식장치에 상기 음성신호를 전송하는 제어부와;
    상기 적어도 하나의 외부음성인식장치가 상기 음성신호를 기초로 처리한 요청서비스를 상기 통신부를 통해 수신하여 출력하는 출력부를 포함하는 것을 특징으로 하는 음성인식장치.
  13. 음성인식시스템에 있어서,
    네트워크 클러스터로 구성된 복수의 음성인식장치들을 포함하며,
    상기 복수의 음성인식장치들 중 제1음성인식장치가 사용자의 발화음성으로부터 음성신호를 수신하고, 상기 음성신호에 포함된 정보를 파악하고, 상기 파악된 정보를 기초로 상기 복수의 음성인식장치들 중 제2음성인식장치를 선택하고, 상기 음성신호를 상기 선택된 제2음성인식장치에 전송하고,
    상기 제2음성인식장치는 상기 수신한 음성신호에 포함된 요청 서비스를 처리하여, 상기 제1음성인식장치에 전송하는 것을 특징으로 하는 음성인식시스템.
  14. 음성인식방법에 있어서,
    네트워크로 연결된 복수의 음성인식장치들 중 제1음성인식장치가 사용자의 발화음성으로부터 음성신호를 수신하는 단계와;
    제1음성인식장치가 상기 음성신호에 포함된 정보를 파악하는 단계와;
    제1음성인식장치가 상기 음성신호에 포함된 정보를 기초로 복수의 음성인식장치들 중 제2음성인식장치를 선택하는 단계와;
    상기 선택된 제2음성인식장치에 상기 음성신호를 전송하는 단계와;
    상기 제2음성인식장치가 상기 음성신호에 포함된 요청 서비스를 처리하는 단계와;
    상기 제2음성인식장치가 상기 요청 서비스 처리결과를 상기 제1음성인식장치에 전송하는 단계를 포함하는 것을 특징으로 하는 음성인식방법.
  15. 청구항 14항에 기재된 음성인식방법을 수행하는 프로그램을 기록하고 있는 기록매체.
PCT/KR2016/008592 2016-02-05 2016-08-04 음성인식 장치 및 방법, 음성인식시스템 WO2017135531A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/073,864 US10997973B2 (en) 2016-02-05 2016-08-04 Voice recognition system having expanded spatial range

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0015280 2016-02-05
KR1020160015280A KR102642666B1 (ko) 2016-02-05 2016-02-05 음성인식 장치 및 방법, 음성인식시스템

Publications (1)

Publication Number Publication Date
WO2017135531A1 true WO2017135531A1 (ko) 2017-08-10

Family

ID=59500206

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/008592 WO2017135531A1 (ko) 2016-02-05 2016-08-04 음성인식 장치 및 방법, 음성인식시스템

Country Status (3)

Country Link
US (1) US10997973B2 (ko)
KR (1) KR102642666B1 (ko)
WO (1) WO2017135531A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055617A (zh) * 2017-12-12 2018-05-18 广东小天才科技有限公司 一种麦克风的唤醒方法、装置、终端设备及存储介质
CN109672775A (zh) * 2017-10-16 2019-04-23 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
CN109753665A (zh) * 2019-01-30 2019-05-14 北京声智科技有限公司 唤醒模型的更新方法及装置
GB2568594A (en) * 2017-09-28 2019-05-22 Intel Corp Distributed speech processing
CN111033610A (zh) * 2017-10-17 2020-04-17 三星电子株式会社 电子装置及语音识别方法
US10803868B2 (en) 2017-12-28 2020-10-13 Samsung Electronics Co., Ltd. Sound output system and voice processing method
WO2020215741A1 (zh) * 2019-04-26 2020-10-29 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102418952B1 (ko) 2017-08-31 2022-07-08 삼성전자주식회사 음성인식 기능을 갖는 가전제품
CN107464565B (zh) * 2017-09-20 2020-08-04 百度在线网络技术(北京)有限公司 一种远场语音唤醒方法及设备
KR102543693B1 (ko) 2017-10-17 2023-06-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
KR102552486B1 (ko) * 2017-11-02 2023-07-06 현대자동차주식회사 차량의 음성인식 장치 및 방법
KR102445779B1 (ko) * 2017-11-07 2022-09-21 주식회사 엘지유플러스 대화형 서비스 장치 및 대화형 서비스 장치의 제어 방법
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
KR102209092B1 (ko) * 2017-12-18 2021-01-28 네이버 주식회사 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
JP6752870B2 (ja) * 2017-12-18 2020-09-09 ネイバー コーポレーションNAVER Corporation 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
KR102576388B1 (ko) 2018-02-21 2023-09-08 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR20190102509A (ko) * 2018-02-26 2019-09-04 삼성전자주식회사 음성 명령을 수행하는 방법 및 시스템
KR20200034430A (ko) * 2018-09-21 2020-03-31 삼성전자주식회사 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
JP7023823B2 (ja) * 2018-11-16 2022-02-22 アルパイン株式会社 車載装置及び音声認識方法
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
WO2021075774A1 (en) * 2019-10-16 2021-04-22 Samsung Electronics Co., Ltd. Method for controlling iot device and electronic device therefor
KR20210055445A (ko) 2019-11-07 2021-05-17 현대자동차주식회사 대화 처리 장치, 이를 포함하는 대화 처리 시스템 및 대화 처리 방법
KR20210064594A (ko) * 2019-11-26 2021-06-03 삼성전자주식회사 전자장치 및 그 제어방법
WO2021118269A1 (en) 2019-12-12 2021-06-17 Samsung Electronics Co., Ltd. Electronic device and method for controlling electronic device
CN111208736B (zh) * 2019-12-17 2023-10-27 中移(杭州)信息技术有限公司 智能音箱控制方法、装置、电子设备及存储介质
US11348589B2 (en) 2020-01-09 2022-05-31 International Business Machines Corporation Automatic contextual selection of a smart device
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2022102888A1 (en) * 2020-11-11 2022-05-19 Samsung Electronics Co., Ltd. Methods and systems for identifying devices and positions of devices in an iot environment
CN112698872A (zh) * 2020-12-21 2021-04-23 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备及存储介质
KR102504445B1 (ko) 2022-07-14 2023-03-02 (주)인티그리트 인공지능형 음성 인식 및 대화 서비스를 지원하는 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080096239A (ko) * 2007-04-27 2008-10-30 정장오 주방tv 및 홈네트워크시스템 및 가전기기를 음성으로제어하는 음성인식 네트워크주방tv시스템.
KR20110053549A (ko) * 2009-11-16 2011-05-24 현대모비스 주식회사 메시지 통신을 이용한 독립형 음성인식 미들웨어의 음성 인식 방법
KR20130045471A (ko) * 2011-10-26 2013-05-06 삼성전자주식회사 전자장치 및 그 제어방법
KR20140089795A (ko) * 2013-01-07 2014-07-16 엘지전자 주식회사 홈 어플라이언스 및 그 동작방법
KR20140106715A (ko) * 2012-03-08 2014-09-03 엘지전자 주식회사 다수의 디바이스 음성 제어 장치 및 방법

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002540479A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアントサーバ音声認識
WO2001095496A1 (fr) * 2000-06-06 2001-12-13 Sakai, Yasue Procede et appareil de compression, procede et appareil d'expansion, systeme de compression expansion
US7428000B2 (en) 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US20090164215A1 (en) * 2004-02-09 2009-06-25 Delta Electronics, Inc. Device with voice-assisted system
GB2435146B (en) * 2005-09-13 2010-08-04 Vodafone Plc Group communications
JP2007081837A (ja) * 2005-09-14 2007-03-29 Aruze Corp テレビ会議端末装置、テレビ会議システム、及びテレビ会議方法
US20090061381A1 (en) * 2007-09-05 2009-03-05 Duane Milford Durbin Systems and methods for 3D previewing
KR20090025939A (ko) 2007-09-07 2009-03-11 (주)한국파워보이스 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
KR101276199B1 (ko) * 2009-08-10 2013-06-18 한국전자통신연구원 시청자 참여의 iptv 원격 방송 시스템 및 그 서비스 제공 방법
US20120066732A1 (en) * 2010-09-15 2012-03-15 Devericks James K System And Method Of Presenting An Interactive Video Package
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9046414B2 (en) * 2012-09-21 2015-06-02 Google Inc. Selectable lens button for a hazard detector and method therefor
US20140337151A1 (en) * 2013-05-07 2014-11-13 Crutchfield Corporation System and Method for Customizing Sales Processes with Virtual Simulations and Psychographic Processing
DE212014000045U1 (de) * 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9172747B2 (en) * 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
JP2015012374A (ja) * 2013-06-27 2015-01-19 株式会社東芝 映像再生装置、映像再生装置の制御方法及び制御プログラム
US10264211B2 (en) * 2014-03-14 2019-04-16 Comcast Cable Communications, Llc Adaptive resolution in software applications based on dynamic eye tracking
US9672728B2 (en) * 2014-04-07 2017-06-06 Google Inc. Smart hazard detector drills
KR102342623B1 (ko) * 2014-10-01 2021-12-22 엑스브레인, 인크. 음성 및 연결 플랫폼
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9652959B2 (en) * 2015-04-07 2017-05-16 Vivint, Inc. Smart wake
US10079012B2 (en) * 2015-04-21 2018-09-18 Google Llc Customizing speech-recognition dictionaries in a smart-home environment
US9996316B2 (en) * 2015-09-28 2018-06-12 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices
US20170091521A1 (en) * 2015-09-30 2017-03-30 Synaptics Incorporated Secure visual feedback for fingerprint sensing
US9569815B1 (en) * 2015-11-13 2017-02-14 International Business Machines Corporation Optimizing electronic display resolution
US9798309B2 (en) * 2015-12-18 2017-10-24 Echostar Technologies International Corporation Home automation control based on individual profiling using audio sensor data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080096239A (ko) * 2007-04-27 2008-10-30 정장오 주방tv 및 홈네트워크시스템 및 가전기기를 음성으로제어하는 음성인식 네트워크주방tv시스템.
KR20110053549A (ko) * 2009-11-16 2011-05-24 현대모비스 주식회사 메시지 통신을 이용한 독립형 음성인식 미들웨어의 음성 인식 방법
KR20130045471A (ko) * 2011-10-26 2013-05-06 삼성전자주식회사 전자장치 및 그 제어방법
KR20140106715A (ko) * 2012-03-08 2014-09-03 엘지전자 주식회사 다수의 디바이스 음성 제어 장치 및 방법
KR20140089795A (ko) * 2013-01-07 2014-07-16 엘지전자 주식회사 홈 어플라이언스 및 그 동작방법

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2568594A (en) * 2017-09-28 2019-05-22 Intel Corp Distributed speech processing
GB2568594B (en) * 2017-09-28 2020-10-07 Intel Corp Distributed speech processing
CN109672775A (zh) * 2017-10-16 2019-04-23 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
CN109672775B (zh) * 2017-10-16 2021-10-29 腾讯科技(北京)有限公司 调节唤醒灵敏度的方法、装置及终端
CN111033610A (zh) * 2017-10-17 2020-04-17 三星电子株式会社 电子装置及语音识别方法
CN111033610B (zh) * 2017-10-17 2023-10-27 三星电子株式会社 电子装置及语音识别方法
CN108055617A (zh) * 2017-12-12 2018-05-18 广东小天才科技有限公司 一种麦克风的唤醒方法、装置、终端设备及存储介质
US10803868B2 (en) 2017-12-28 2020-10-13 Samsung Electronics Co., Ltd. Sound output system and voice processing method
CN109753665A (zh) * 2019-01-30 2019-05-14 北京声智科技有限公司 唤醒模型的更新方法及装置
WO2020215741A1 (zh) * 2019-04-26 2020-10-29 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质
CN111862964A (zh) * 2019-04-26 2020-10-30 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质
CN111862964B (zh) * 2019-04-26 2024-03-22 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质

Also Published As

Publication number Publication date
KR102642666B1 (ko) 2024-03-05
US10997973B2 (en) 2021-05-04
US20190035398A1 (en) 2019-01-31
KR20170093629A (ko) 2017-08-16

Similar Documents

Publication Publication Date Title
WO2017135531A1 (ko) 음성인식 장치 및 방법, 음성인식시스템
JP6567737B2 (ja) 音声対話制御方法
WO2019235863A1 (en) Methods and systems for passive wakeup of a user interaction device
WO2013187715A1 (en) Server and method of controlling the same
WO2016035933A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2015111850A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2015009086A1 (en) Multi-level speech recognition
EP2815290A1 (en) Method and apparatus for smart voice recognition
WO2016133316A1 (en) Electronic device and method of operating voice recognition function
WO2014069820A1 (en) Broadcast receiving apparatus, server and control methods thereof
WO2018174437A1 (en) Electronic device and controlling method thereof
WO2014007502A1 (en) Display apparatus, interactive system, and response information providing method
EP2941895A1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
WO2019235858A1 (en) A voice assistant device and method thereof
US11145303B2 (en) Electronic device for speech recognition and control method thereof
EP3011751A1 (en) Server, control method thereof, image processing apparatus, and control method thereof
WO2018164547A1 (en) Image display apparatus and operation method thereof
WO2021049795A1 (en) Electronic device and operating method thereof
WO2015130035A1 (en) Apparatus and method for generating a guide sentence
WO2021017332A1 (zh) 语音控制报错方法、电器及计算机可读存储介质
WO2018117660A1 (en) Security enhanced speech recognition method and device
WO2021054671A1 (en) Electronic apparatus and method for controlling voice recognition thereof
CN112700770A (zh) 语音控制方法、音箱设备、计算设备和存储介质
WO2019103200A1 (ko) 통합 음성비서 서비스 제공 방법 및 장치
WO2021080147A1 (ko) 개인화된 가상 비서를 제공하는 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16889509

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16889509

Country of ref document: EP

Kind code of ref document: A1