WO2019045455A2 - 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 - Google Patents
가전 기기의 음성 인식을 위한 시스템과 서버, 방법 Download PDFInfo
- Publication number
- WO2019045455A2 WO2019045455A2 PCT/KR2018/010007 KR2018010007W WO2019045455A2 WO 2019045455 A2 WO2019045455 A2 WO 2019045455A2 KR 2018010007 W KR2018010007 W KR 2018010007W WO 2019045455 A2 WO2019045455 A2 WO 2019045455A2
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice command
- home appliance
- voice
- speech recognition
- server
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000006870 function Effects 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000005406 washing Methods 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 30
- 238000001035 drying Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010411 cooking Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 244000017020 Ipomoea batatas Species 0.000 description 2
- 235000002678 Ipomoea batatas Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 235000012907 honey Nutrition 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Definitions
- the present invention relates to a speech recognition technique for controlling a home appliance using voice commands generated by a user (speaker) utterance.
- a plurality of operating conditions are set in order to control the home appliance to achieve a desired operation (function).
- functions provided by home appliances are complex and diverse, the operating conditions to be set also increase.
- the key operation of the control panel must be performed several times to change the number of times of rinsing operation for each washing course or change the water level according to the weight of the laundry.
- the setting method is very inconvenient and sometimes abandons the use of the function.
- a voice command system based on voice recognition technology is increasingly employed.
- a voice command system based on the voice recognition technology there are still inconveniences to generate a voice command as many times as the number of setting items in order to set each of a plurality of setting items when there are a plurality of setting items.
- a plurality of setting items for device control can be collectively set through the spoken word of a single sentence in a natural language form.
- a speech recognition system of a home appliance includes: a home appliance for receiving a voice command generated through a single sentence utterance for controlling a home appliance; And a server for receiving the voice command of the single sentence from the home appliance and analyzing the voice command of the single sentence through the multiple intention determination.
- the voice command generated through a single sentence utterance includes a plurality of intents, and the server interprets the voice command based on the plurality of intentions.
- the server generates a plurality of command sentence formulas by combining the plurality of intentions; Generate a plurality of derived statements based on the plurality of command statement formulas; And compares the plurality of derivative sentences with a plurality of voice command data registered in the server to search for voice command data that matches.
- the server may generate a plurality of scenarios in which the home appliance can operate based on the functions and specifications of the home appliances; And generates the plurality of command statement expressions corresponding to each of the plurality of scenarios.
- the server compares the plurality of voice command data with one having the higher priority among the plurality of voice command data .
- voice command data expressing higher frequency of use has a relatively higher priority.
- the server extracts a plurality of control values for controlling the home appliance from the analysis result of the voice command; And transmitting the speech recognition result including the plurality of control values to the home appliance.
- the speech recognition result further includes at least one of functions and options of the home appliance, hardware values, values required for control, success or failure of speech recognition results, and text information to be presented to the user do.
- the household appliance includes at least one of a refrigerator, a washing machine, a cooking appliance, an air conditioner, and a robot cleaner.
- the speech recognition server of the home appliance comprises: a speech recognition unit for recognizing a speech command generated through speech of a single sentence and converting the speech command into text data for controlling the household appliance; And a natural language analysis unit for analyzing the voice command of the single sentence to extract an intent; And interprets the voice command of the single sentence through the multiple intention decision.
- the voice command generated through the single-sentence utterance includes a plurality of intentions, and interprets the voice command based on the plurality of intentions.
- the speech recognition server of the home appliance described above combines the plurality of intentions to generate a plurality of command sentence formulas; Generate a plurality of derived statements based on the plurality of command statement formulas; And compares the plurality of derivative sentences with a plurality of voice commands registered in the server to search for voice commands that match.
- the speech recognition server of the home appliance described above generates a plurality of scenarios in which the home appliance can operate based on the functions and specifications of the home appliances; And generates the plurality of command statement expressions corresponding to each of the plurality of scenarios.
- the plurality of voice command data are compared with one having higher priority.
- voice command data expressing a higher frequency of use has a higher priority.
- the speech recognition result further includes at least one of functions and options of the home appliance, a hardware value, a value required for control, success or failure of the speech recognition result, do.
- the household appliance includes at least one of a refrigerator, a washing machine, a cooking appliance, an air conditioner, and a robot cleaner.
- a speech recognition method for a home appliance comprising: receiving a speech command generated through a single sentence utterance through a device for controlling a home appliance; Receiving the voice command of the single sentence from the home appliance and interpreting the voice command of the single sentence through the multiple intention determination.
- the voice command generated through the single-sentence utterance includes a plurality of intentions, and interprets the voice command based on the plurality of intentions.
- the above-described speech recognition method for household appliances includes the steps of generating a plurality of command sentence formulas by combining the plurality of intentions; Generating a plurality of derived statements based on the plurality of command statement formulas; And comparing the plurality of derivative sentences with a plurality of voice command data registered in the server to search for voice command data that matches.
- the above-described speech recognition method of a home appliance may include the steps of: generating a plurality of operable scenarios of the home appliance based on the functions and specifications of the appliance; And generating the plurality of command statement formulas corresponding to each of the plurality of scenarios.
- the plurality of voice command data are compared with one having higher priority.
- voice command data expressing higher frequency of use has a relatively higher priority.
- the above-described speech recognition method for household appliances includes the steps of extracting a plurality of control values for controlling the home appliance from the analysis result of the voice command; And transmitting the speech recognition result including the plurality of control values to the home appliance.
- the speech recognition result further includes at least one of functions and options of the home appliance, hardware values, values required for control, success or failure of speech recognition results, and text information to be presented to the user do.
- the household appliances include at least one of a refrigerator, a washing machine, a cooking appliance, an air conditioner, and a robot cleaner.
- a plurality of setting items for device control can be collectively set through the spoken word of a single sentence in a natural language form so that a plurality of setting items for device control can be set easily and quickly.
- FIG. 1 is a view illustrating a home appliance to which a speech recognition technology according to an embodiment of the present invention is applied.
- FIG. 2 is a block diagram of a speech recognition system to which a speech recognition technology according to an embodiment of the present invention is applied.
- FIG. 3 is a diagram showing the configuration of the speech recognition system shown in Fig. 2 in more detail.
- FIG. 4 is a diagram illustrating an example of a voice command protocol applied to a speech recognition technology according to an embodiment of the present invention.
- FIG. 5 is a diagram illustrating a speech recognition control method according to an embodiment of the present invention.
- FIG. 6 is a diagram illustrating a speech recognition scenario of a washing machine to which a speech recognition technology according to an embodiment of the present invention is applied.
- FIG. 7 is a view illustrating another speech recognition scenario of a washing machine to which the speech recognition technology according to the embodiment of the present invention is applied.
- FIG. 8 is a diagram illustrating a speech recognition scenario of an oven to which a speech recognition technology according to an embodiment of the present invention is applied.
- FIG. 9 is a diagram illustrating another speech recognition scenario of the oven to which the speech recognition technology according to the embodiment of the present invention is applied.
- FIG. 10 is a diagram illustrating a speech recognition scenario of a robot cleaner to which a speech recognition technology according to an embodiment of the present invention is applied.
- FIG. 11 is a view showing another speech recognition scenario of the robot cleaner to which the speech recognition technology according to the embodiment of the present invention is applied.
- FIG. 1 is a view illustrating a home appliance to which a speech recognition technology according to an embodiment of the present invention is applied.
- the speech recognition technology according to the embodiment of the present invention can be applied to all devices that can mount a voice recognition module such as an automobile, a computer, an industrial facility, a mobile device, etc., as well as a home appliance, and can be controlled through voice commands.
- FIG. 1 An example of the household electrical appliance 100 shown in Fig. 1 is a washing machine.
- the home appliances to which the speech recognition technology according to the embodiment of the present invention can be applied are not limited to the washing machine, but may be extended to other home appliances such as an oven or a robot cleaner.
- the home appliance 100 is provided with a microphone hole 102 and a speaker hole 104.
- the microphone hole 102 is provided at a position where a microphone (see 306 in FIG. 3) is installed.
- a voice signal to be uttered by the user (speaker) is transmitted to the microphone (306 in FIG. 3) through the microphone hole 102.
- the speaker hole 104 is provided at a position where the speaker (312 in FIG. 3) is installed.
- the acoustic signal generated by the home appliance 100 can be output to the outside through the speaker hole 104.
- the positions of the microphone hole 102 and the speaker hole 104 are determined by the positions of the microphone (306 in FIG. 3) and the speaker (312 in FIG. 3).
- the microphone (306 in Fig. 3) and the speaker (312 in Fig. 3) can be installed anywhere in the main body of the household appliance (100).
- a microphone (306 in FIG. 3) and a speaker (312 in FIG. 3) are provided on a control panel 106 provided on the upper front surface of the main body of the home appliance 100 and a microphone hole 102
- By forming the speaker hole 104 it is possible to allow the user (speaker)'s ear and mouth to approach the microphone hole 102 and the speaker hole 104 when the user (speaker) stands in front of the electric appliance 100 .
- FIG. 2 is a block diagram of a speech recognition system to which a speech recognition technology according to an embodiment of the present invention is applied.
- the voice command generated by the utterance of the user (speaker) 250 is input to the voice recognition device 230 of the home appliance 100, and then is subjected to a series of signal processing steps to perform remote voice recognition And transmitted to the server 270.
- the speech recognition device 230 may be provided in the form of a logic in the microprocessor or in the form of speech recognition application software.
- the voice recognition server 270 interprets and converts voice commands.
- the voice command interpreted and converted by the voice recognition server 270 is again supplied to the home appliance 100 to control the home appliance 100 corresponding to the voice command.
- the voice recognition server 270 is provided at a remote place to communicate with the home appliance 100.
- the voice recognition server 270 may be installed in the household appliance 100 and operated.
- a mobile device for example, a smart phone such as Samsung Galaxy series
- the speech recognition device 230 provided in the home appliance 100 includes a control unit 302, a communication unit 304, a microphone 306, an audio storage unit 308, a preprocessing unit 310, a speaker 312, (314).
- the speech recognition server 270 provided at the remote site includes an automatic speech recognition (ASR) 372, a natural language understanding (NLU) 374, a text to speech (TTS) ) ≪ / RTI >
- the control section 302 controls overall operation of the speech recognition apparatus 230.
- a series of signal processing is performed by receiving a voice command generated by the utterance of a user (speaker), and a voice command in which the signal processing is completed is transmitted to the remote speech recognition server 270 through the communication unit 304 do.
- the control unit 302 receives the voice command interpreted and converted by the voice recognition server 270 and transmits the received voice command to the other control unit of the home appliance 100 to receive the home appliance 100 corresponding to the voice command. So that the control can be performed.
- the communication unit 304 allows the voice recognition device 230 of the home appliance 100 and the voice recognition server 270 of the remote location to communicate with each other.
- the communication unit 304 may be communication means for wired communication and wireless communication.
- the communication between the voice recognition device 230 of the home appliance 100 and the voice recognition server 270 of the remote location can use both the wired communication network and the wireless communication network.
- existing infrastructure such as LTE (Long Term Evolution) can be used.
- Wi-Fi communication or Ethernet communication can be used.
- the home appliance 100 and the voice recognition server 270 may communicate using the hotspot function of the mobile device.
- the home appliance 100 and the voice recognition server 270 may communicate with each other through a local area network such as Bluetooth or NFC. When communicating via the local area network, the voice recognition server 270 needs to be located close to the home appliance 100.
- the microphone 306 is a device for receiving a voice signal uttered by a user (speaker).
- the acoustic signal generated by the utterance of the user (speaker) is collected by the microphone 306 and converted into an electric signal.
- the voice storage unit 308 operates as a kind of buffer for temporarily storing the acoustic signals collected by the microphone 306.
- the preprocessing unit 310 preprocesses the acoustic signal stored in the voice storage unit 308.
- the preprocessing process of the acoustic signal may include noise cancellation or signal amplification.
- the speaker 312 is a device for outputting an acoustic signal generated by the household appliance 100.
- the acoustic signal output through the speaker 312 may include a beep sound or a warning sound indicating the state of the home appliance 100.
- the acoustic signal output through the speaker 312 may be a response to a user's voice command or an acoustic signal to guide a result of performing a voice command.
- the sensor unit 314 is provided to detect various operating states of the home appliance 100.
- the sensor unit 314 may be a door sensor capable of detecting door opening of the household appliance 100.
- the sensor unit 314 may be a temperature sensor for measuring the water temperature of the household appliance 100.
- the speech recognition unit 372 recognizes a speech command generated by the utterance of the user (speaker) and converts it into text data.
- the natural language analysis unit 374 is an apparatus for analyzing the contents of a voice command generated by speech of a user (speaker) through natural language processing and extracting an intent of a user (speaker).
- the 'intention' of the user (speaker) means an independent control item intended by the user.
- the voice command "Begin with delicate drying of the standard washing course 3 times” is performed by four intents of "washing course", “rinse number”, “degree of drying” .
- the text-to-speech conversion unit 376 is a device that is configured to convert text data into a speech signal (Text to Speech).
- the speech recognition server 270 stores various text data related to the household appliance 100.
- the text-to-speech conversion unit 376 converts the selected text data among the various text data into a sound signal and transmits the sound signal to the speech recognition apparatus 230 of the home appliance 100.
- the voice recognition device 230 of the home appliance 100 outputs the acoustic signal transmitted from the text-to-speech conversion unit 376 of the voice recognition server 270 through the speaker 312 so that the user can listen to the voice signal.
- the natural language analysis unit (NLU) 374 of the speech recognition server 270 determines whether or not the natural language analysis unit 374 acquires the text data converted by the speech recognition unit 372 And checks whether or not a matching sentence exists. For example, when the user (speaker) utters "start rinsing three times in a standard laundry course and delicately dried" to generate a voice command, the natural language analysis unit 374 analyzes the user (speaker) And the text data corresponding to or near to "Start with delicate drying of three times of standard washing course rinse" is checked for existence. In this case, the rule name (Command Name) used as the basis for the search becomes "start cycle and rinse and dryer".
- the text data stored in the voice recognition server 270 includes command sentence formulas for understanding and operating voice commands.
- the following (A) - (D) illustrate some examples of command sentence formulas.
- the command statement formulas described below can be prepared using multiple intent grasping techniques.
- the voice command to start with "delicately drying three times of standard laundry course" includes four intents of 'washing course', 'rinse count', 'drying degree' and 'start (setting)' I have mentioned. Therefore, by combining these four intentions, various command statement formulas can be generated. However, if only the command sentence formula that can be expressed as a single sentence in natural language form is taken, it can be summarized as follows.
- the command sentence formula corresponding to "start cycle and rinse and dryer” is the command sentence formula (B).
- Derived sentences that can be generated from the command sentence formula (B) by applying multiple intent grasping techniques and natural language rules can be expressed as (B1) - (B5) below.
- (B1) - (B5) contain sentences and expressions that are close to natural language, but the original sentence, "Rinse three times in a standard laundry course, start with delicacy" . If no matching derived statement exists, select the most similar derived statement.
- the text data secured by the natural language analysis unit 374 has a priority for the purpose of increasing the recognition rate.
- a higher priority is given to the text data expressing the general operation with higher frequency of use in the household appliance (100).
- the household appliance 100 is a washing machine
- the general type of washing operation includes a 'washing course', a 'rinsing frequency', and a 'drying degree' Quot; degree " has a relatively higher priority.
- the washing operation which does not include the " rinse number " or " drying degree " is not general, the text data related thereto has a relatively low priority.
- the natural language analysis unit 374 can search for text data that matches faster and more accurately by starting comparison from the higher priority text data among the secured text data.
- the presence of the matching text data means that the text data of the instruction word corresponding to the speech signal uttered by the user (speaker) exists in the natural language analysis unit 374.
- the natural language analysis unit 374 confirms the rule of the command.
- the rules of the command are implemented differently according to the operation scenarios of the household appliance (100).
- exceptions are checked according to the functions and specifications of the home appliance 100. For example, if the user (speaker) says “start a standard laundry course”, find the rule corresponding to the command and get the rule of the command "Start Cycle Washer”.
- the 'standard washing course' uttered by the user (speaker) based on the performance and the required specifications of the home appliance 100 is a laundry course existing in the household appliance 100.
- the 'standard washing course' is a washing course existing in the household appliance (100)
- the current operation state of the household appliance (100) is confirmed. Information on the current state of the home appliance 100 is provided from the voice recognition device 230 of the home appliance 100.
- the current state of the home appliance 100 is a state in which the 'standard washing course' can be performed as a result of checking the current operating state of the home appliance 100, a 'standard washing course' is performed according to a voice command. On the contrary, if the current state of the home appliance 100 is in the state where the 'standard laundry course' can not be performed, it is displayed through the speaker 312 (or the display) that the 'standard laundry course' .
- the natural language analysis unit 374 transmits the speech recognition result to the speech recognition device 230 of the home appliance 100.
- the speech recognition result may include a function and an option of the home appliance 100, a hardware value, a value required for control, a success or failure of the result, and text information (TTS information) to guide the user.
- the voice command generated by the utterance of the user (speaker) by the voice recognition device 230 of the home appliance 100 and the voice recognition server 270 of the remote location is recognized and performed by the home appliance 100, (Speaker) can set the desired operation (or input the control command) without directly operating the home appliance 100.
- FIG. 4 is a diagram illustrating an example of a voice command protocol applied to a speech recognition technology according to an embodiment of the present invention.
- a voice command protocol applied to a speech recognition technology according to an embodiment of the present invention.
- a plurality of setting items may be an operation control item and an option setting item.
- a user can refer to a plurality of operation control items and a plurality of option setting items consecutively in a single sentence, applies a predetermined rule thereto, The user can accurately grasp the contents of the voice command of the user (speaker) by performing the natural language processing using the speaker 374.
- the voice command protocol shown in FIG. 4 includes ⁇ function>, ⁇ option>, and ⁇ hardware control value>.
- the ⁇ function > distinguishes various functions provided in the home appliance 100, ⁇ option > distinguishes a settable value or state for each function, ⁇ hardware control value > Respectively.
- the ⁇ hardware control value > may be expressed in a form other than hexadecimal.
- the home appliance 100 is a washing machine, and a user (speaker) uttered "start rinsing three times in a standard washing course".
- the voice command of the user (speaker) includes four intents of 'course', 'rinse (count)', 'drying (degree)' and 'motion control'.
- the 'course' is for selecting a laundry course, and may include courses such as standard laundry, wool laundry, and large laundry laundry.
- the hardware control value representative of the standard wash selected by the user (speaker) is " 0x00 ".
- the 'rinse' is for selecting the number of times of rinsing of the laundry, and for example, any one of rinsing times such as one to five times may be selected.
- the hardware control value representative of the number of times of rinsing selected by the user (speaker) is " 0x0f ".
- the term " drying " is used to select the degree of drying of the laundry.
- the drying degree may be selected from general drying, high temperature drying and delicate drying.
- the hardware control value representing the delicate drying selected by the user (speaker) is " 0xA0 ".
- the 'operation control' is for setting the operation of the household appliance 100, and for example, it is possible to select any one of an operation such as start and end of washing operation, and pause operation.
- the hardware control value representative of the wash start selected by the user (speaker) is " 0x43 ".
- the voice recognition device 230 of the household appliance 100 performs the cooperation of the user (speaker) through the collaboration with the voice recognition server 270
- the voice command is analyzed to include the ⁇ function>, the ⁇ option>, and the ⁇ hardware control value> as shown in FIG. 4,
- the device 100 can be controlled.
- a first voice command is first generated, a function is set, and a second voice command is generated to set an option. That is, it is necessary to generate independent (separated) voice commands for each setting item.
- a speech recognition system even if only one voice command having a single sentence structure in a natural language form including both a plurality of ⁇ function > and a plurality of & Option ". ⁇ / RTI >
- FIG. 5 is a diagram illustrating a speech recognition control method according to an embodiment of the present invention.
- the home appliance 100 is powered on by a power button operation of the user, and power is supplied to each element of the home appliance 100 (502).
- the voice recognition mode When the home appliance 100 is powered on, the voice recognition mode may be activated through at least one of the following two methods. If a separate process for activating the voice recognition mode is not accompanied, the daily conversation occurring in the vicinity of the home appliance 100 may be mistakenly recognized as a user inputting the control command by the voice recognition function. Therefore, a separate procedure for activating the voice recognition mode is required to prevent such a misunderstanding.
- the first way to activate the voice recognition mode is to activate the voice recognition mode through voice triggering. That is, when the user utters a predetermined specific voice, the home appliance 100 recognizes the utterance of the predetermined specific voice so that the voice recognition mode can be activated.
- a user may directly operate a voice recognition icon or a voice recognition button provided in the home appliance 100 to activate the voice recognition mode.
- control unit 302 of the voice recognition apparatus 230 monitors whether a voice command is received in the standby state (506).
- the voice command generated by the utterance of the user is received through the microphone 306 (Yes in 506), the received voice command is temporarily stored in the voice storage unit 308, Noise is removed or the signal amplified (508) through the preprocessing process.
- the voice command having completed the preprocessing process is transmitted to the remote speech recognition server 270 through the communication unit 304 (510).
- a speech recognition process including speech recognition (ASR) and natural language analysis (NLU) is performed on the voice command transmitted from the home appliance 100.
- ASR speech recognition
- NLU natural language analysis
- the speech recognition process performed by the speech recognition server 270 has been described in detail with reference to FIG.
- the results of the speech recognition (results of ASR, NLU, and TTS) performed by the speech recognition server 270 are transmitted to the control unit 302 of the home appliance 100 again.
- the home appliance 100 receives the result of speech recognition (result of ASR, NLU, TTS) from the speech recognition server 270 (512).
- the result of speech recognition may include functions and options of the home appliance 100, hardware values, values required for control, success or failure of the result, and text information (TTS information) to guide the user.
- the control unit 302 of the voice recognition device 230 of the home appliance 100 transmits the voice recognition result of the home appliance 100 ) To the other control units of the home appliance 100 so that the control of the home appliances 100 can be performed.
- the control unit 302 selects the text information (TTS information) included in the result of the voice recognition received from the voice recognition server 270,
- the speaker 312 outputs the voice guidance corresponding to the current state of the speaker.
- the voice guidance may be for informing the progress of the current work in the home appliance 100 or informing completion of the work. If the home appliance 100 is provided with a display, it may output the guidance message in the form of text or graphics through the display.
- FIG. 6 is a diagram illustrating a speech recognition scenario of a washing machine to which a speech recognition technology according to an embodiment of the present invention is applied.
- the washing machine 600 when the user (speaker) generates a voice command such as " Wash with a baby clothes course until 6PM " through a single sentence utterance, the washing machine 600 having received the voice command
- the speech recognition server 270 extracts a plurality of control values from a voice command in the form of a single sentence of the user (speaker) through multiple intention determination, &Quot; I will finish the laundry until 6 o'clock ".
- the recognition of the voice command in the natural language form and the generation of the voice message are performed by extracting a plurality of control values included in the voice command of the single sentence type through the multiple intention determination of the voice recognition technology according to the embodiment of the present invention Lt; / RTI >
- FIG. 7 is a view illustrating another speech recognition scenario of a washing machine to which the speech recognition technology according to the embodiment of the present invention is applied. 7, when the user (speaker) generates a voice command such as "How to wash towel and t-shirt" through a single sentence utterance, the washing machine 700 that has received the voice command transmits the voice command to the voice recognition server 270 ) And extracts a plurality of control values from the voice command in the form of a single sentence of the user (speaker) through multiple intention determination in cooperation with the voice command of the user (speaker) not. &Quot; Separate laundry is recommended.
- the recognition of the voice command in the natural language form and the generation of the voice message are performed by extracting a plurality of control values included in the voice command of the single sentence type through the multiple intention determination of the voice recognition technology according to the embodiment of the present invention Lt; / RTI >
- FIG. 8 is a diagram illustrating a speech recognition scenario of an oven to which a speech recognition technology according to an embodiment of the present invention is applied.
- a user speech generator
- the oven 800 receives the voice command,
- the speech recognition server 270 extracts a plurality of control values from the voice command in the form of a single sentence of the user (speaker) through the multiple intention determination, and outputs the control value in response to the voice command of the user (speaker).
- &Quot;, " I will cook as you said ".
- the recognition of the voice command in the natural language form and the generation of the voice message are performed by extracting a plurality of control values included in the voice command of the single sentence type through the multiple intention determination of the voice recognition technology according to the embodiment of the present invention Lt; / RTI >
- FIG. 9 is a diagram illustrating another speech recognition scenario of the oven to which the speech recognition technology according to the embodiment of the present invention is applied.
- a user speech generator
- the oven 900 Collaborates with the speech recognition server 270 to extract a plurality of control values from a voice command in the form of a single sentence of a user (speaker) through multi-intention determination, and generates a "sweet potato cake” in response to a voice command of the user I recommend it.
- a voice message such as " Please let me know if you want a detailed recipe.
- the recognition of the voice command in the natural language form and the generation of the voice message are performed by extracting a plurality of control values included in the voice command of the single sentence type through the multiple intention determination of the voice recognition technology according to the embodiment of the present invention Lt; / RTI >
- 10 is a diagram illustrating a speech recognition scenario of a robot cleaner to which a speech recognition technology according to an embodiment of the present invention is applied.
- the robot cleaner 1000 when the user (speaker) generates a voice command such as " clean the living room and the room, kitchen " through a single sentence, the robot cleaner 1000, which has received the voice command,
- the recognition server 270 extracts a plurality of control values from the voice command in the form of a single sentence of the user (speaker) through the multiple intention determination, and outputs the control command in response to the voice command of the user (speaker).
- &Quot I will clean the area mentioned ".
- the recognition of the voice command in the natural language form and the generation of the voice message are performed by extracting a plurality of control values included in the voice command of the single sentence type through the multiple intention determination of the voice recognition technology according to the embodiment of the present invention Lt; / RTI >
- FIG. 11 is a view showing another speech recognition scenario of the robot cleaner to which the speech recognition technology according to the embodiment of the present invention is applied.
- a user when a user (speaker) generates a voice command such as "Let's start cleaning the living room at 4 o'clock because the speaker is going out at 3 o'clock" through a single sentence utterance, The cleaner 1100 extracts a plurality of control values from a voice command in the form of a single sentence of the user (speaker) through a multi-purpose determination in cooperation with the voice recognition server 270, Yes. I will begin cleaning the living room at 4 o'clock ".
- the recognition of the voice command in the natural language form and the generation of the voice message are performed by extracting a plurality of control values included in the voice command of the single sentence type through the multiple intention determination of the voice recognition technology according to the embodiment of the present invention Lt; / RTI >
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성 인식을 위한 시스템과 서버, 방법에 관한 것으로, 자연어 형태의 단일 문장의 발화를 통해 기기 제어를 위한 다수의 설정 항목을 일괄 설정할 수 있도록 하는데 그 목적이 있다. 이를 위해 본 발명에 따른 음성 인식 시스템은, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 수신하는 상기 가전 기기와; 상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 서버를 포함한다.
Description
본 발명은 사용자(화자)의 발화에 의해 생성된 음성 명령을 이용하여 가전 기기를 제어하기 위한 음성 인식 기술에 관한 것이다.
가전 기기를 제어하여 목적하는 동작(기능)이 이루어지도록 하기 위해서는 복수의 동작 조건을 설정하게 된다. 가전 기기가 제공하는 기능이 복잡하고 다양할수록 설정해야 할 동작 조건도 함께 증가하게 마련이다. 예를 들면 세탁기에서는 세탁 코스마다 헹굼 동작의 실행 횟수를 변경하거나 세탁물의 중량에 따른 수위를 변경하기 위해 컨트롤 패널의 키 조작을 여러 번 실시해야 한다. 그런데 이와 같은 키 조작은 세탁기 사용 안내서(User Guidebook)를 보지 않으면 알 수 없는 복잡한 것들이 많다. 특정 기능의 경우에는 설정 방법이 매우 불편해서 해당 기능의 사용을 포기하기도 한다.
이와 같은 불편을 해소하기 위해 음성 인식 기술을 기반으로 하는 음성 명령 시스템의 채용이 증가하고 있다. 그러나 음성 인식 기술을 기반으로 하는 음성 명령 시스템의 경우에도, 설정 항목이 다수인 경우에는 다수의 설정 항목 각각을 설정하기 위해 설정 항목의 수만큼 여러 번 음성 명령을 생성해야 하는 불편이 여전히 존재한다.
일 측면에 따르면, 자연어 형태의 단일 문장의 발화를 통해 기기 제어를 위한 다수의 설정 항목을 일괄 설정할 수 있도록 하는데 그 목적이 있다.
상술한 목적의 본 발명에 따른 가전 기기의 음성 인식 시스템은, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 수신하는 상기 가전 기기와; 상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 서버를 포함한다.
상술한 가전 기기의 음성 인식 시스템에서, 단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 서버는 상기 복수의 의도에 기초하여 상기 음성 명령을 해석한다.
상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하고; 상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하며; 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령 데이터들을 비교하여 일치하는 음성 명령 데이터를 검색한다.
상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하고; 상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성한다.
상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령 데이터를 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교한다.
상술한 가전 기기의 음성 인식 시스템에서, 사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 상대적으로 더 높은 우선 순위를 갖는다.
상술한 가전 기기의 음성 인식 시스템에서, 상기 서버는, 상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하고; 상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송하는 것을 더 포함한다.
상술한 가전 기기의 음성 인식 시스템에서, 상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함한다.
상술한 가전 기기의 음성 인식 시스템에서, 상기 가전 기기는 냉장고와 세탁기, 조리 기기, 공기 조화기, 로봇 청소기 가운데 적어도 하나를 포함한다.
상술한 목적의 본 발명에 따른 가전 기기의 음성 인식 서버는, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 인식하여 텍스트 데이터로 변환하는 음성 인식부와; 상기 단일 문장의 음성 명령을 분석하여 의도(Intent)를 추출하기 위한 자연어 해석부를 포함하고; 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석한다.
상술한 가전 기기의 음성 인식 서버에서, 단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 복수의 의도에 기초하여 상기 음성 명령을 해석한다.
상술한 가전 기기의 음성 인식 서버는, 상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하고; 상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하며; 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령들을 비교하여 일치하는 음성 명령을 검색한다.
상술한 가전 기기의 음성 인식 서버는, 상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하고; 상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성한다.
상술한 가전 기기의 음성 인식 서버에서, 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령을 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교한다.
상술한 가전 기기의 음성 인식 서버에서, 사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 더 높은 우선 순위를 갖는다.
상술한 가전 기기의 음성 인식 서버에서, 상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하고; 상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송한다.
상술한 가전 기기의 음성 인식 서버에서, 상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함한다.
상술한 가전 기기의 음성 인식 서버에서, 상기 가전 기기는 냉장고와 세탁기, 조리 기기, 공기 조화기, 로봇 청소기 가운데 적어도 하나를 포함한다.
상술한 목적의 본 발명에 따른 가전 기기의 음성 인식 방법은, 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 기기를 통해 수신하는 단계와; 상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 단계를 포함한다.
상술한 가전 기기의 음성 인식 방법에서, 단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 복수의 의도에 기초하여 상기 음성 명령을 해석한다.
상술한 가전 기기의 음성 인식 방법은, 상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하는 단계와; 상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하는 단계와; 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령 데이터들을 비교하여 일치하는 음성 명령 데이터를 검색하는 단계를 포함한다.
상술한 가전 기기의 음성 인식 방법은, 상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하는 단계와; 상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성하는 단계를 더 포함한다.
상술한 가전 기기의 음성 인식 방법에서, 상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령 데이터를 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교한다.
상술한 가전 기기의 음성 인식 방법에서, 사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 상대적으로 더 높은 우선 순위를 갖는다.
상술한 가전 기기의 음성 인식 방법은, 상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하는 단계와; 상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송하는 단계를 더 포함한다.
상술한 가전 기기의 음성 인식 방법에서, 상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함한다.
상술한 가전 기기의 음성 인식 방법에서, 상기 가전 기기는 냉장고와 세탁기, 조리 기기, 공기 조화기, 로봇 청소기 가운데 적어도 하나를 포함한다.
일 측면에 따르면, 자연어 형태의 단일 문장의 발화를 통해 기기 제어를 위한 다수의 설정 항목을 일괄 설정할 수 있도록 함으로써, 기기 제어를 위한 다수의 설정 항목을 쉽고 빠르게 설정할 수 있도록 한다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 기술이 적용된 가전 기기를 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 음성 인식 기술이 적용된 음성 인식 시스템을 나타낸 도면이다.
도 3은 도 2에 나타낸 음성 인식 시스템의 구성을 더욱 자세히 나타낸 도면이다.
도 4는 본 발명의 실시 예에 따른 음성 인식 기술에 적용되는 음성 명령 프로토콜의 일례를 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 음성 인식 제어 방법을 나타낸 도면이다.
도 6은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 세탁기의 음성 인식 시나리오를 나타낸 도면이다.
도 7은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 세탁기의 또 다른 음성 인식 시나리오를 나타낸 도면이다.
도 8은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 오븐의 음성 인식 시나리오를 나타낸 도면이다.
도 9는 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 오븐의 또 다른 음성 인식 시나리오를 나타낸 도면이다.
도 10은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 로봇 청소기의 음성 인식 시나리오를 나타낸 도면이다.
도 11은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 로봇 청소기의 또 다른 음성 인식 시나리오를 나타낸 도면이다.
도 1은 본 발명의 일 실시 예에 따른 음성 인식 기술이 적용된 가전 기기를 나타낸 도면이다. 본 발명의 실시 예에 따른 음성 인식 기술은 가전 기기는 물론 자동차, 컴퓨터, 산업용 설비, 모바일 디바이스 등 음성 인식 모듈을 탑재할 수 있고 또 음성 명령을 통해 제어될 수 있는 모든 기기에 적용될 수 있다.
도 1에 나타낸 가전 기기(100)의 예시는 세탁기이다. 본 발명의 실시 예에 따른 음성 인식 기술이 적용될 수 있는 가전 기기는 세탁기에 한정되지 않고, 오븐이나 로봇 청소기와 같은 다른 가전 기기들로 확장될 수 있다.
도 1에 나타낸 바와 같이, 가전 기기(100)에는 마이크로폰 홀(102)과 스피커 홀(104)이 마련된다. 마이크로폰 홀(102)은 마이크로폰(도 3의 306 참조)이 설치되는 위치에 마련된다. 사용자(화자)가 발화하는 음성 신호가 마이크로폰 홀(102)을 통해 마이크로폰(도 3의 306)에 전달된다. 스피커 홀(104)은 스피커(도 3의 312)가 설치되는 위치에 마련된다. 가전 기기(100)에서 생성되는 음향 신호가 스피커 홀(104)을 통해 외부로 출력될 수 있다.
마이크로폰 홀(102)과 스피커 홀(104)의 위치는 마이크로폰(도 3의 306)과 스피커(도 3의 312)의 위치에 의해 결정된다. 마이크로폰(도 3의 306)과 스피커(도 3의 312)는 가전 기기(100)의 본체의 어느 곳이라도 설치될 수 있다. 바람직하게는, 가전 기기(100)의 본체의 상단 전면에 마련되는 컨트롤 패널(106)에 마이크로폰(도 3의 306)과 스피커(도 3의 312)를 설치하고 같은 위치에 마이크로폰 홀(102)과 스피커 홀(104)을 형성함으로써 사용자(화자)가 가전 기기(100)의 앞에 섰을 때 사용자(화자)의 귀와 입이 마이크로폰 홀(102)과 스피커 홀(104)에 가까이 접근할 수 있도록 할 수 있다.
도 2는 본 발명의 실시 예에 따른 음성 인식 기술이 적용된 음성 인식 시스템을 나타낸 도면이다. 도 2에 나타낸 바와 같이, 사용자(화자)(250)의 발화에 의해 생성되는 음성 명령은 가전 기기(100)의 음성 인식 장치(230)에 입력된 후 일련의 신호 처리 과정을 거쳐 원격지의 음성 인식 서버(270)로 전송된다. 음성 인식 장치(230)는 마이크로프로세서에 로직 형태로 마련되거나, 또는 음성 인식 어플리케이션 소프트웨어의 형태로 마련될 수 있다. 음성 인식 서버(270)에서는 음성 명령의 해석 및 변환이 이루어진다. 음성 인식 서버(270)에서 해석 및 변환된 음성 명령은 다시 가전 기기(100)에 제공되어 음성 명령에 상응하는 가전 기기(100)의 제어가 이루어진다.
음성 인식 서버(270)는 원격지에 마련되어 가전 기기(100)와 통신하도록 이루어진다. 또 다른 실시 예로서, 가전 기기(100) 내에 음성 인식 서버(270)를 설치하여 운용할 수도 있다. 또 다른 실시 예로서, 모바일 디바이스(예를 들면 삼성전자의 갤럭시 시리즈와 같은 스마트폰)를 음성 인식 서버로서 운용할 수도 있다.
도 3은 도 2에 나타낸 음성 인식 시스템의 구성을 더욱 자세히 나타낸 도면이다. 가전 기기(100)에 마련되는 음성 인식 장치(230)는 제어부(302)와 통신부(304), 마이크로폰(306), 음성 저장부(308), 전처리부(310), 스피커(312), 센서부(314)를 포함할 수 있다. 원격지에 마련되는 음성 인식 서버(270)는 음성 인식부(Automatic Speech Recognition, ASR)(372)와 자연어 해석부(Natural Language Understanding, NLU)(374), 텍스트-음성 변환부(Text to Speech, TTS)(376)를 포함할 수 있다.
음성 인식 장치(230)에서, 제어부(302)는 음성 인식 장치(230)의 동작 전반을 제어한다. 예를 들면, 사용자(화자)의 발화에 의해 생성된 음성 명령을 수신하여 일련의 신호 처리를 수행하고, 신호 처리가 완료된 음성 명령을 통신부(304)를 통해 원격지의 음성 인식 서버(270)로 전송한다. 또한 제어부(302)는 음성 인식 서버(270)로부터 해석 및 변환된 음성 명령을 수신하고, 수신된 음성 명령을 가전 기기(100)의 다른 제어부에 전달하여 해당 음성 명령에 대응하는 가전 기기(100)의 제어가 이루어질 수 있도록 한다.
통신부(304)는 가전 기기(100)의 음성 인식 장치(230)와 원격지의 음성 인식 서버(270)가 서로 통신할 수 있도록 한다. 통신부(304)는 유선 통신과 무선 통신을 위한 통신 수단일 수 있다. 가전 기기(100)의 음성 인식 장치(230)와 원격지의 음성 인식 서버(270) 사이의 통신은 유선 통신망과 무선 통신망을 모두 이용할 수 있다. 무선 통신망의 경우 LTE(Long Term Evolution)와 같은 기존의 인프라를 이용할 수 있다. 또는 와이파이 통신이나 이더넷 통신을 이용할 수도 있다. 또는 가전 기기(100)와 음성 인식 서버(270)가 모바일 디바이스의 핫스팟 기능을 이용해 통신할 수도 있다. 또는 가전 기기(100)와 음성 인식 서버(270)가 블루투스나 NFC 등의 근거리 통신망을 통해 통신할 수도 있다. 근거리 통신망을 통해 통신하는 경우 음성 인식 서버(270)는 가전 기기(100)로부터 가까운 곳에 위치할 필요가 있다.
마이크로폰(306)은 사용자(화자)가 발화하는 음성 신호를 수신하기 위한 장치이다. 사용자(화자)의 발화에 의해 생성되는 음향 신호는 마이크로폰(306)에 의해 수집되어 전기 신호로 변환된다.
음성 저장부(308)는 마이크로폰(306)에 의해 수집된 음향 신호를 일시적으로 저장하는 일종의 버퍼로서 동작한다.
전처리부(310)는 음성 저장부(308)에 저장되어 있는 음향 신호의 전처리를 수행한다. 음향 신호의 전처리 과정은 노이즈 제거 또는 신호 증폭을 포함할 수 있다.
스피커(312)는 가전 기기(100)에서 생성되는 음향 신호를 출력하기 위한 장치이다. 스피커(312)를 통해 출력되는 음향 신호는 가전 기기(100)의 상태를 나타내는 비프 음이나 경고 음 등을 포함할 수 있다. 또한 스피커(312)를 통해 출력되는 음향 신호는 사용자의 음성 명령에 대한 응답이거나 또는 음성 명령의 수행 결과를 안내하기 위한 음향 신호일 수 있다.
센서부(314)는 가전 기기(100)의 다양한 동작 상태 등을 감지하도록 마련된다. 예를 들면 센서부(314)는 가전 기기(100)의 도어 열림을 검출할 수 있는 도어 센서일 수 있다. 또한 센서부(314)는 가전 기기(100)의 수온을 측정하기 위한 온도 센서일 수 있다.
음성 인식 서버(270)에서, 음성 인식부(372)는 사용자(화자)의 발화에 의해 생성되는 음성 명령을 인식하여 텍스트 데이터로 변환한다.
자연어 해석부(374)는 자연어 처리를 통해 사용자(화자)의 발화에 의해 생성되는 음성 명령의 내용을 분석하고 사용자(화자)의 의도(Intent)를 추출하기 위한 장치이다. 여기서 사용자(화자)의 '의도'는 사용자가 목적하는 독립된 제어 항목을 의미한다. 예를 들면, “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라는 음성 명령은 '세탁 코스'와 '헹굼 회수', '건조 정도', '시작(설정)'의 네 개의 의도(Intent)를 포함한다.
텍스트-음성 변환부(376)는 텍스트 데이터를 음성 신호로 변환하도록 마련되는 장치이다(Text to Speech). 음성 인식 서버(270)에는 가전 기기(100)와 관련된 다양한 텍스트 데이터들이 저장되어 있다. 텍스트-음성 변환부(376)는 다양한 텍스트 데이터들 가운데 취사 선택된 것을 음향 신호로 변환하여 가전 기기(100)의 음성 인식 장치(230)로 전송한다. 가전 기기(100)의 음성 인식 장치(230)는 음성 인식 서버(270)의 텍스트-음성 변환부(376)로부터 전달되는 음향 신호를 스피커(312)를 통해 출력하여 사용자가 청취할 수 있도록 한다.
본 발명의 실시 예에 따른 음성 인식 시스템에서, 음성 인식 서버(270)의 자연어 해석부(NLU)(374)는 음성 인식부(372)에 의해 변환된 텍스트 데이터를 자연어 해석부(374)가 확보하고 있는 여러 텍스트 데이터들과 비교하여 일치하는 문장이 존재하는지를 확인한다. 예를 들면, 사용자(화자)가 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라고 발화하여 음성 명령을 생성한 경우, 자연어 해석부(374)는 확보되어 있는 텍스트 데이터들 중에서 사용자(화자)가 발화한 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”와 일치하거나 또는 근접하는 텍스트 데이터를 검색하여 존재 여부를 확인한다. 이 경우 검색의 기준이 되는 규칙 이름(Command Name)은 “start cycle and rinse and dryer”가 된다.
음성 인식 서버(270)에 확보되어 있는 텍스트 데이터들은 음성 명령을 이해하고 운용하기 위한 명령어 문장 공식들을 포함한다. 아래의 (A)-(D)에 명령어 문장 공식의 몇 가지 예를 기술하였다. 아래에 기술한 명령어 문장 공식들은, 다중 의도(Multiple Intent) 파악 기술을 이용하여 마련할 수 있다. 앞서 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라는 음성 명령은 '세탁 코스'와 '헹굼 회수', '건조 정도', '시작(설정)'의 네 개의 의도(Intent)를 포함하는 것임을 언급한 바 있다. 따라서 이 네 개의 의도를 조합하면 다양한 명령어 문장 공식을 생성할 수 있다. 다만, 자연어 형태의 단일 문장으로 표현될 수 있는 명령어 문장 공식만을 취하면 아래와 같이 정리할 수 있다.
(A) <washer_cycle> 코스 건조 <dryer_number>코스에 헹굼<rinse_number>회로 {concept_start}
(B) <washer_cycle> 코스 헹굼<rinse_number>회 건조 <dryer_number>코스로 {concept_start}
(C) <washer_cycle> 코스 헹굼<rinse_number>회 건조 <dryer_number>코스로 {concept_setting}
(D) 건조 <dryer_number>코스에 헹굼<rinse_number>회로 <washer_cycle> 코스를 {concept_start}
이 중에서 “start cycle and rinse and dryer”에 해당하는 명령어 문장 공식은 명령어 문장 공식 (B)이다. 다중 의도(multiple intents) 파악 기술 및 자연어 규칙이 적용되어 명령어 문장 공식 (B)로부터 생성될 수 있는 파생 문장들은 아래의 (B1)-(B5)와 같이 나타낼 수 있다. (B1)-(B5) 모두 자연어에 가까운 문장 구조 및 표현을 포함하고 있지만, 원래의 음성 명령인 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”와 일치하는 파생 문장은 (B4)인 것을 알 수 있다. 만약 일치하는 파생 문장이 존재하지 않으면, 가장 유사한 파생 문장을 선택한다.
(B1) 표준 세탁 코스 헹굼 0회 건조 섬세로 시작해
(B2) 표준 세탁 코스 헹굼 1회 건조 섬세로 시작해줘
(B3) 표준 세탁 코스 헹굼 2회 건조 섬세로 시작해줄래
*(B4) 표준 세탁 코스 헹굼 3회 건조 섬세로 시작해줘
(B5) 표준 세탁 코스 헹굼 2회 건조 섬세로 시작해줄래
자연어 해석부(374)가 확보하고 있는 텍스트 데이터들은 인식률을 높이기 위한 목적으로 우선 순위를 갖는다. 해당 가전 기기(100)에서 사용 빈도가 더 높은 일반적인 동작을 표현하는 텍스트 데이터에 더 높은 우선 순위가 부여된다. 예를 들면, 가전 기기(100)가 세탁기인 경우 일반적인 형태의 세탁 운전이 '세탁 코스'와 '헹굼 회수', '건조 정도' 등을 포함하므로, '세탁 코스'와 '헹굼 회수', '건조 정도'를 포함하는 텍스트 데이터가 상대적으로 더 높은 우선 순위를 갖는다. 이와 달리, '헹굼 회수' 또는 '건조 정도'를 포함하지 않는 세탁 운전은 일반적이지 않기 때문에 이와 관련된 텍스트 데이터는 상대적으로 낮은 우선 순위를 갖는다. 자연어 해석부(374)는 확보하고 있는 텍스트 데이터들 중에서 우선 순위가 높은 것부터 비교를 시작함으로써 더 빠르고 정확하게 매칭되는 텍스트 데이터를 검색할 수 있다.
비교 결과, 일치하는 텍스트 데이터가 존재하는 것은 사용자(화자)가 발화한 음성 신호에 해당하는 명령어의 텍스트 데이터가 자연어 해석부(374)에 존재하는 것을 의미한다. 자연어 해석부(374)는 해당 명령어의 규칙을 확인한다.
명령어의 규칙은 가전 기기(100)의 동작 시나리오에 따라 다르게 구현된다. 먼저 가전 기기(100)의 기능과 사양에 따라 예외 사항들을 확인한다. 예를 들면, 사용자(화자)가 "표준 세탁 코스를 시작해"라고 말하는 경우, 명령어에 해당하는 규칙을 찾아 "Start Cycle Washer"라는 명령어의 규칙을 확보한다. 이어서 가전 기기(100)의 성능과 요구 사양에 기초하여 사용자(화자)가 발화한 '표준 세탁 코스'가 가전 기기(100)에 존재하는 세탁 코스인지를 확인한다. 만약 '표준 세탁 코스'가 가전 기기(100)에 존재하는 세탁 코스일 때, 가전 기기(100)의 현재의 동작 상태를 확인한다. 가전 기기(100)의 현재 상태의 정보는 가전 기기(100)의 음성 인식 장치(230)로부터 제공받는다.
가전 기기(100)의 현재의 동작 상태를 확인한 결과, 가전 기기(100)의 현재의 상태가 '표준 세탁 코스'를 수행할 수 있는 상태이면 음성 명령에 따라 '표준 세탁 코스'가 수행되도록 한다. 반대로 만약 가전 기기(100)의 현재의 상태가 '표준 세탁 코스'를 수행할 수 없는 상태이면 '표준 세탁 코스'를 수행할 수 없음을 스피커(312)(또는 디스플레이)를 통해 표출하여 사용자가 인지할 수 있도록 한다.
예외 사항들을 확인한 결과 정상적인 음성 명령으로 확인되면, 자연어 해석부(374)는 음성 인식 결과를 가전 기기(100)의 음성 인식 장치(230)로 전송한다. 음성 인식 결과는 가전 기기(100)의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 결과의 성공 여부, 사용자에게 안내할 텍스트 정보(TTS 정보)를 포함할 수 있다.
이와 같은 가전 기기(100)의 음성 인식 장치(230)와 원격지의 음성 인식 서버(270)에 의해 사용자(화자)의 발화에 의해 생성되는 음성 명령이 가전 기기(100)에 의해 인식되어 수행됨으로써 사용자(화자)는 가전 기기(100)를 직접 조작하지 않고도 목적하는 동작의 설정(또는 제어 명령의 입력)을 실시할 수 있다.
도 4는 본 발명의 실시 예에 따른 음성 인식 기술에 적용되는 음성 명령 프로토콜의 일례를 나타낸 도면이다. 본 발명의 실시 예에 따른 음성 인식 시스템에서는, 사용자(화자)의 발화에 의해 생성되는 음성 명령이 연속된 복수의 설정 항목을 포함하는 자연어 형태의 단일 문장인 경우에도 빠르고 정확하게 음성 명령을 해석하고 변환할 수 있다. 예를 들면 복수의 설정 항목은 동작 제어 항목과 옵션 설정 항목일 수 있다. 본 발명의 실시 예에 따른 음성 인식 기술에서는 사용자(화자)가 복수의 동작 제어 항목 및 복수의 옵션 설정 항목을 단일의 문장 내에서 연속해서 언급할 수 있도록 하고, 이를 미리 정해진 규칙을 적용하고 자연어 해석부(374)를 이용한 자연어 처리를 수행함으로써 사용자(화자)의 음성 명령의 내용을 정확히 파악할 수 있다.
도 4에 나타낸 음성 명령 프로토콜은 <기능>과 <옵션>, <하드웨어 제어 값>을 포함한다. <기능>은 가전 기기(100)에 구비되는 여러 가지 기능들을 구분하는 것이고, <옵션>은 각 기능 별로 설정 가능한 값 또는 상태를 구분하는 것이며, <하드웨어 제어 값>은 각 기능 별 옵션을 16진수로 나타낸 것이다. <하드웨어 제어 값>은 16진수 외에 다른 형태로 표현될 수도 있다.
도 4에서는 가전 기기(100)가 세탁기인 경우를 가정하고, 사용자(화자)가 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라고 발화한 경우를 가정하였다. 이와 같은 사용자(화자)의 음성 명령에는 '코스'와 '헹굼(회수)', '건조(정도)', '동작 제어'의 네 개의 의도(Intent)가 포함되어 있다.
'코스'는 세탁 코스를 선택하기 위한 것으로서, 표준 세탁이나 울 세탁, 대형 빨래 세탁 등의 코스를 포함할 수 있다. 사용자(화자)가 선택한 표준 세탁을 대표하는 하드웨어 제어 값은 “0x00”이다.
'헹굼'은 세탁물의 헹굼 회수를 선택하기 위한 것으로서, 예를 들면 1회 내지 5회 등의 헹굼 회수 가운데 어느 하나를 선택할 수 있다. 사용자(화자)가 선택한 헹굼 회수 3회를 대표하는 하드웨어 제어 값은 “0x0f”이다.
'건조'는 세탁물의 건조 정도를 선택하기 위한 것으로서, 예를 들면 일반 건조와 고온 건조, 섬세 건조 등의 건조 정도 가운데 어느 하나를 선택할 수 있다. 사용자(화자)가 선택한 섬세 건조를 대표하는 하드웨어 제어 값은 “0xA0”이다.
'동작 제어'는 가전 기기(100)의 동작 설정을 위한 것으로서, 예를 들면 세탁 운전의 시작과 종료, 일시 정지 등의 동작 가운데 어느 하나를 선택할 수 있다. 사용자(화자)가 선택한 세탁 시작을 대표하는 하드웨어 제어 값은 “0x43”이다.
사용자(화자)가 “표준 세탁 코스 헹굼 3회 건조 섬세로 시작해 줘”라고 발화하면, 가전 기기(100)의 음성 인식 장치(230)는 음성 인식 서버(270)와의 협업을 통해 사용자(화자)의 음성 명령이 도 4에 나타낸 것과 같은 <기능>과 <옵션>, <하드웨어 제어 값>을 포함하는 것으로 분석하고, 분석된 내용대로 3회의 헹굼 행정과 섬세한 건조 행정을 포함하는 표준 세탁 코스가 수행되도록 가전 기기(100)를 제어할 수 있다.
기존의 일반적인 가전 기기의 경우, 음성 인식 기술을 기반으로 <기능>과 <옵션>을 설정하기 위해 먼저 1차 음성 명령을 생성하여 기능을 설정한 후 2차 음성 명령을 생성하여 옵션을 설정하였다. 즉, 각각의 설정 항목마다 독립된(구분된) 음성 명령을 발생시켜야 했다. 그러나, 본 발명의 실시 예에 따른 음성 인식 시스템에서는 복수의 <기능>과 복수의 <옵션>을 모두 포함하는 자연어 형태의 단일 문장 구조의 음성 명령 하나만으로도 목적하는 복수의 <기능>과 복수의 <옵션>을 모두 포함하는 음성 명령을 생성할 수 있다.
도 5는 본 발명의 실시 예에 따른 음성 인식 제어 방법을 나타낸 도면이다.
먼저, 사용자의 파워 버튼 조작에 의해 가전 기기(100)가 파워 온 되어 가전 기기(100)의 각 요소에 전력이 공급될 수 있다(502).
가전 기기(100)가 파워 온 상태일 때, 다음에 설명하는 두 가지 방법 중 적어도 하나의 방법을 통해 음성 인식 모드가 활성화될 수 있다. 음성 인식 모드를 활성화하기 위한 별도의 과정이 수반되지 않으면, 가전 기기(100)의 주변에서 발생하는 일상적인 대화가 자칫 음성 인식 기능에 의해 사용자가 제어 명령을 입력한 것으로 잘 못 인식될 수 있다. 따라서 이와 같은 오인식을 방지하기 위해 음성 인식 모드를 활성화하기 위한 별도의 과정이 필요하다.
음성 인식 모드가 활성화되도록 하기 위한 첫 번째 방법으로는, 음성 트리거를 통해 음성 인식 모드가 활성화되도록 하는 것을 들 수 있다. 즉, 사용자가 미리 정해진 특정 음성을 발화하면, 가전 기기(100)가 미리 정해진 특정 음성의 발화를 인식함으로써 음성 인식 모드가 활성화될 수 있다. 음성 인식 모드가 활성화되도록 하기 위한 두 번째 방법으로는, 사용자가 가전 기기(100)에 마련되어 있는 음성 인식 아이콘이나 음성 인식 버튼을 직접 조작하여 음성 인식 모드가 활성화되도록 하는 것을 들 수 있다.
음성 인식 모드가 활성화되면, 음성 인식 장치(230)의 제어부(302)는 대기 상태에서 음성 명령이 수신되는지를 모니터링 한다(506).
사용자(화자)의 발화에 의해 생성된 음성 명령이 마이크로폰(306)을 통해 수신되면(506의 '예'), 수신된 음성 명령은 음성 저장부(308)에 임시 저장된 후 전처리부(310)의 전처리 과정을 거치면서 노이즈가 제거되거나 신호가 증폭된다(508).
전처리 과정이 완료된 음성 명령은 통신부(304)를 통해 원격지의 음성 인식 서버(270)로 전송된다(510). 음성 인식 서버(270)에서는 가전 기기로(100)로부터 전송된 음성 명령을 대상으로 음성 인식(ASR) 및 자연어 해석(NLU)을 포함하는 음성 인식 과정이 이루어진다. 음성 인식 서버(270)에서 실시되는 음성 인식 과정은 앞서 도 3의 설명에서 자세히 언급한 바 있다. 음성 인식 서버(270)에서 실시된 음성 인식의 결과(ASR과 NLU, TTS의 결과)는 다시 가전 기기(100)의 제어부(302)로 전송된다.
가전 기기(100)는 음성 인식 서버(270)로부터 음성 인식의 결과(ASR과 NLU, TTS의 결과)를 수신한다(512). 음성 인식의 결과는 가전 기기(100)의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 결과의 성공 여부, 사용자에게 안내할 텍스트 정보(TTS 정보)를 포함할 수 있다.
가전 기기(100)의 음성 인식 장치(230)의 제어부(302)는 음성 인식 서버(270)로부터 수신된 음성 인식의 결과(ASR과 NLU, TTS의 결과)에 기초하여 음성 명령대로 가전 기기(100)의 제어가 이루어질 수 있도록 가전 기기(100)의 다른 제어부들에게 필요한 데이터를 전달한다.
음성 명령에 기초한 작업이 진행 중일 때 또는 완료된 이후에는, 제어부(302)가 음성 인식 서버(270)로부터 수신한 음성 인식의 결과에 포함되어 있는 텍스트 정보(TTS 정보)를 취사 선택하여 가전 기기(100)의 현재 상태에 맞는 음성 안내를 스피커(312)를 통해 출력한다. 음성 안내는 가전 기기(100)에서 현재 진행되고 있는 작업의 진행 상태를 알리기 위한 것이거나 또는 작업의 완료를 알리는 것일 수 있다. 가전 기기(100)에 디스플레이가 구비되어 있다면, 디스플레이를 통해 텍스트 또는 그래픽의 형태로 안내 메시지를 출력할 수도 있다.
도 6은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 세탁기의 음성 인식 시나리오를 나타낸 도면이다. 도 6에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “오후 6시까지 아기 옷 코스로 세탁해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 세탁기(600)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 6시까지 세탁 완료하겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.
도 7은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 세탁기의 또 다른 음성 인식 시나리오를 나타낸 도면이다. 도 7에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “타월과 티셔츠는 어떻게 세탁할까”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 세탁기(700)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “타월과 티셔츠를 함께 세탁하는 것은 추천하지 않습니다. 분리 세탁을 추천합니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.
도 8은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 오븐의 음성 인식 시나리오를 나타낸 도면이다. 도 8에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “450도로 20분, 300도로 3시간 조리해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 오븐(800)은 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 말씀하신 대로 조리하겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.
도 9는 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 오븐의 또 다른 음성 인식 시나리오를 나타낸 도면이다. 도 9에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “고구마, 꿀, 생크림, 카스텔라가 있는데, 어떤 요리가 좋을까”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 오븐(900)은 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “고구마 케이크를 추천합니다. 자세한 레시피를 원하시면 알려드리겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.
도 10은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 로봇 청소기의 음성 인식 시나리오를 나타낸 도면이다. 도 10에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “거실과 안방, 부엌을 청소해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 로봇 청소기(1000)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 말씀하신 구역을 청소해 놓겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.
도 11은 본 발명의 실시 예에 따른 음성 인식 기술을 적용한 로봇 청소기의 또 다른 음성 인식 시나리오를 나타낸 도면이다. 도 11에 나타낸 바와 같이, 사용자(화자)가 단일 문장의 발화를 통해 “3시에 외출할 예정이니까, 4시에 거실 청소 시작해 줘.”와 같은 음성 명령을 생성하면, 음성 명령을 수신한 로봇 청소기(1100)는 음성 인식 서버(270)와 협업하여 사용자(화자)의 단일 문장 형태의 음성 명령으로부터 다중 의도 판단을 통해 복수의 제어 값을 추출하고, 사용자(화자)의 음성 명령에 반응하여 “네. 4시에 거실 청소를 시작하겠습니다.”와 같은 음성 메시지를 스피커(312)를 통해 출력한다. 이와 같은 자연어 형태의 음성 명령의 인식 및 음성 메시지의 생성은 본 발명의 실시 예에 따른 음성 인식 기술의 다중 의도 판단을 통해 상기 단일 문장 형태의 음성 명령에 포함되어 있는 복수의 제어 값을 추출하는 것을 통해 구현될 수 있다.
위의 설명은 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 기술 분야에서 통상의 지식을 가진 자라면 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서 위에 개시된 실시 예 및 첨부된 도면들은 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 기술적 사상의 범위가 한정되는 것은 아니다. 그 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (15)
- 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 수신하는 상기 가전 기기와;상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 서버를 포함하는 가전 기기의 음성 인식 시스템.
- 제 1 항에 있어서,단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 서버는 상기 복수의 의도에 기초하여 상기 음성 명령을 해석하는 가전 기기의 음성 인식 시스템.
- 제 2 항에 있어서, 상기 서버는,상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하고;상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하며;상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령 데이터들을 비교하여 일치하는 음성 명령 데이터를 검색하는 가전 기기의 음성 인식 시스템.
- 제 3 항에 있어서, 상기 서버는,상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하고;상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성하는 가전 기기의 음성 인식 시스템.
- 제 3 항에 있어서, 상기 서버는,상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령 데이터를 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교하는 가전 기기의 음성 인식 시스템.
- 제 5 항에 있어서,사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 상대적으로 더 높은 우선 순위를 갖는 가전 기기의 음성 인식 시스템.
- 제 1 항에 있어서, 상기 서버는,상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하고;상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송하는 것을 더 포함하되,상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함하는 가전 기기의 음성 인식 시스템.
- 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 인식하여 텍스트 데이터로 변환하는 음성 인식부와;상기 단일 문장의 음성 명령을 분석하여 의도(Intent)를 추출하기 위한 자연어 해석부를 포함하고;다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 서버를 포함하는 가전 기기의 음성 인식 서버.
- 가전 기기의 제어를 위해 단일 문장의 발화를 통해 생성되는 음성 명령을 기기를 통해 수신하는 단계와;상기 가전 기기로부터 상기 단일 문장의 음성 명령을 전달받아 다중 의도 판단을 통해 상기 단일 문장의 음성 명령을 해석하는 단계를 포함하는 가전 기기의 음성 인식 방법.
- 제 9 항에 있어서,단일 문장의 발화를 통해 생성되는 상기 음성 명령은 복수의 의도를 포함하고, 상기 복수의 의도에 기초하여 상기 음성 명령을 해석하는 가전 기기의 음성 인식 방법.
- 제 10 항에 있어서,상기 복수의 의도를 조합하여 복수의 명령어 문장 공식을 생성하는 단계와;상기 복수의 명령어 문장 공식에 기초하여 복수의 파생 문장을 생성하는 단계와;상기 복수의 파생 문장과 상기 서버에 등록되어 있는 복수의 음성 명령 데이터들을 비교하여 일치하는 음성 명령 데이터를 검색하는 단계를 포함하는 가전 기기의 음성 인식 방법.
- 제 11 항에 있어서,상기 가전 기기의 기능 및 사양에 기초하여 상기 가전 기기의 동작 가능한 복수의 시나리오를 생성하는 단계와;상기 복수의 시나리오 각각에 대응하는 상기 복수의 명령어 문장 공식을 생성하는 단계를 더 포함하는 가전 기기의 음성 인식 방법.
- 제 11 항에 있어서,상기 복수의 파생 문장과 상기 서버에 등록되어 있는 상기 복수의 음성 명령 데이터를 비교할 때 상기 복수의 음성 명령 데이터 중에서 우선 순위가 더 높은 것부터 비교하는 가전 기기의 음성 인식 방법.
- 제 13 항에 있어서,사용 빈도가 더 높은 동작을 표현하는 음성 명령 데이터가 상대적으로 더 높은 우선 순위를 갖는 가전 기기의 음성 인식 방법.
- 제 9 항에 있어서,상기 음성 명령의 해석 결과로부터 상기 가전 기기를 제어하기 위한 복수의 제어 값을 추출하는 단계와;상기 복수의 제어 값을 포함하는 음성 인식 결과를 상기 가전 기기로 전송하는 단계를 더 포함하되,상기 음성 인식 결과는 상기 가전 기기의 기능과 옵션, 하드웨어 값, 제어에 필요한 값, 음성 인식 결과의 성공 여부, 사용자에게 안내할 텍스트 정보 가운데 적어도 하나를 더 포함하는 가전 기기의 음성 인식 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/643,469 US11501770B2 (en) | 2017-08-31 | 2018-08-29 | System, server, and method for speech recognition of home appliance |
EP18852416.9A EP3660839B1 (en) | 2017-08-31 | 2018-08-29 | System and method for voice recognition of home appliance |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0111492 | 2017-08-31 | ||
KR1020170111492A KR102428148B1 (ko) | 2017-08-31 | 2017-08-31 | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
WO2019045455A2 true WO2019045455A2 (ko) | 2019-03-07 |
WO2019045455A3 WO2019045455A3 (ko) | 2019-04-18 |
Family
ID=65527652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2018/010007 WO2019045455A2 (ko) | 2017-08-31 | 2018-08-29 | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11501770B2 (ko) |
EP (1) | EP3660839B1 (ko) |
KR (1) | KR102428148B1 (ko) |
WO (1) | WO2019045455A2 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6910987B2 (ja) * | 2018-06-07 | 2021-07-28 | 株式会社東芝 | 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム |
US11226832B2 (en) * | 2018-11-09 | 2022-01-18 | International Business Machines Corporation | Dynamic generation of user interfaces based on dialogue |
CN112397062B (zh) * | 2019-08-15 | 2024-10-18 | 华为技术有限公司 | 语音交互方法、装置、终端及存储介质 |
WO2021060570A1 (ko) * | 2019-09-23 | 2021-04-01 | 엘지전자 주식회사 | 가전 기기 및 서버 |
US11158321B2 (en) | 2019-09-24 | 2021-10-26 | Google Llc | Automated calling system |
US12002458B1 (en) * | 2020-09-04 | 2024-06-04 | Amazon Technologies, Inc. | Autonomously motile device with command processing |
US11776560B1 (en) * | 2022-10-13 | 2023-10-03 | Health Scholars Inc. | Processing multiple intents from an audio stream in a virtual reality application |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224179A (ja) * | 1998-02-05 | 1999-08-17 | Fujitsu Ltd | 対話インタフェース・システム |
US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
JP4155383B2 (ja) | 2001-03-05 | 2008-09-24 | アルパイン株式会社 | 音声認識機器操作装置 |
US8032383B1 (en) * | 2007-05-04 | 2011-10-04 | Foneweb, Inc. | Speech controlled services and devices using internet |
US8219409B2 (en) * | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
US9640174B2 (en) * | 2013-01-02 | 2017-05-02 | Lg Electronics Inc. | Home appliance and operation method thereof |
KR101383552B1 (ko) * | 2013-02-25 | 2014-04-10 | 미디어젠(주) | 다중 명령어가 포함된 단일 문장의 음성인식방법 |
WO2014171144A1 (ja) * | 2013-04-19 | 2014-10-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
US10030878B2 (en) * | 2013-08-21 | 2018-07-24 | Honeywell International Inc. | User interaction with building controller device using a remote server and a duplex connection |
KR101465230B1 (ko) * | 2013-11-05 | 2014-11-25 | 주식회사 서비전자 | 스마트기기를 이용한 디바이스 제어방법 및 장치 |
KR102261552B1 (ko) * | 2014-06-30 | 2021-06-07 | 삼성전자주식회사 | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 |
JP6316214B2 (ja) * | 2015-01-14 | 2018-04-25 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
KR20170000722A (ko) | 2015-06-24 | 2017-01-03 | 엘지전자 주식회사 | 전자기기 및 그의 음성 인식 방법 |
US10432560B2 (en) * | 2015-07-17 | 2019-10-01 | Motorola Mobility Llc | Voice controlled multimedia content creation |
JP6710037B2 (ja) * | 2015-10-23 | 2020-06-17 | シャープ株式会社 | 通信装置 |
US11104502B2 (en) * | 2016-03-01 | 2021-08-31 | Jeffrey S. Melcher | Multi-function compact appliance and methods for a food or item in a container with a container storage technology |
DK179415B1 (en) * | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10789948B1 (en) * | 2017-03-29 | 2020-09-29 | Amazon Technologies, Inc. | Accessory for a voice controlled device for output of supplementary content |
-
2017
- 2017-08-31 KR KR1020170111492A patent/KR102428148B1/ko active IP Right Grant
-
2018
- 2018-08-29 WO PCT/KR2018/010007 patent/WO2019045455A2/ko unknown
- 2018-08-29 EP EP18852416.9A patent/EP3660839B1/en active Active
- 2018-08-29 US US16/643,469 patent/US11501770B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11501770B2 (en) | 2022-11-15 |
KR102428148B1 (ko) | 2022-08-02 |
KR20190024472A (ko) | 2019-03-08 |
US20210005191A1 (en) | 2021-01-07 |
EP3660839A4 (en) | 2020-06-03 |
EP3660839A2 (en) | 2020-06-03 |
EP3660839B1 (en) | 2022-09-28 |
WO2019045455A3 (ko) | 2019-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019045455A2 (ko) | 가전 기기의 음성 인식을 위한 시스템과 서버, 방법 | |
WO2017160076A1 (ko) | 음향 센서, 및 이를 구비하는 홈 어플라이언스 시스템 | |
WO2020213762A1 (ko) | 전자장치, 그 동작방법, 및 복수의 인공지능장치를 포함한 시스템 | |
WO2020189955A1 (en) | Method for location inference of iot device, server, and electronic device supporting the same | |
WO2014107076A1 (en) | Display apparatus and method of controlling a display apparatus in a voice recognition system | |
WO2017188801A1 (ko) | 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치 | |
US20080091432A1 (en) | System and method for voice control of electrically powered devices | |
CN108470568A (zh) | 智能设备控制方法及装置、存储介质、电子设备 | |
JP2001319045A (ja) | 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体 | |
CN108877805A (zh) | 语音处理模组和具有语音功能的终端 | |
WO2020130549A1 (en) | Electronic device and method for controlling electronic device | |
CN107481721A (zh) | 用于可穿戴电子设备的语音交互方法和可穿戴电子设备 | |
WO2015068954A1 (ko) | 스마트기기를 이용한 디바이스 제어방법 및 장치 | |
WO2019103347A1 (ko) | 전자장치 및 그 제어방법 | |
CN209017333U (zh) | 蓝牙语音控制设备 | |
WO2020101178A1 (en) | Electronic apparatus and wifi connecting method thereof | |
KR102541585B1 (ko) | 인공지능과 음성 인식을 기반으로 동작하는 홈어플라이언스 및 이의 제어 방법 | |
CN106647383A (zh) | 终端控制方法和装置、终端系统 | |
KR101193234B1 (ko) | 명령 온톨로지 기반의 네트워크 제어방법 및 장치 | |
WO2017217014A1 (ja) | 操作者推定システム | |
WO2020111398A1 (en) | Electronic apparatus and controlling method thereof | |
WO2023113227A1 (ko) | 외부 기기를 제어하는 전자 장치 및 방법 | |
WO2020251116A1 (ko) | 음성 인식 액세서리를 이용한 서비스 제공 시스템 및 방법 | |
WO2023008714A1 (ko) | 전자 장치 및 무선 오디오 장치의 연결 전환을 제공하는 방법 | |
CN211788157U (zh) | 一种语音识别设备及智能网关 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18852416 Country of ref document: EP Kind code of ref document: A2 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018852416 Country of ref document: EP Effective date: 20200225 |