WO2020096193A1 - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2020096193A1
WO2020096193A1 PCT/KR2019/011636 KR2019011636W WO2020096193A1 WO 2020096193 A1 WO2020096193 A1 WO 2020096193A1 KR 2019011636 W KR2019011636 W KR 2019011636W WO 2020096193 A1 WO2020096193 A1 WO 2020096193A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
user
information
received
electronic device
Prior art date
Application number
PCT/KR2019/011636
Other languages
English (en)
French (fr)
Inventor
박지선
노민진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/292,116 priority Critical patent/US20210398529A1/en
Publication of WO2020096193A1 publication Critical patent/WO2020096193A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Definitions

  • the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device capable of recognizing a user's voice and a control method thereof.
  • voice recognition devices such as AI (Artificial Intelligence) speakers, smart phones, and smart TVs that recognize a user's voice and operate according to the user's voice have been developed.
  • AI Artificial Intelligence
  • the conventional speech recognition apparatus only provided the response information in a normalized form when the user's voice was received.
  • a conventional voice recognition device may say, “Today's weather in Seoul is minus 2 degrees.
  • Gangsurang is expected to be 10mm ”, providing the standardized response information.
  • the present disclosure has been devised to solve the above-described problems, and an object of the present disclosure is to provide an electronic device and a control method for providing personalized response information based on characteristics of a user's voice.
  • An electronic device for achieving the above object, when a user's voice is received through the voice receiver and the voice receiver, determines an accumulation level of speech history information corresponding to the characteristics of the user voice, If the accumulation level of the utterance history information is less than a predetermined threshold level, response information corresponding to the user's voice is provided based on the user information related to the characteristics of the user's voice, and the accumulation level of the utterance history information is different. And a processor providing response information corresponding to the user's voice based on the user information and the utterance history information, if the threshold level is greater than or equal to the set threshold level.
  • the user information includes at least one of information regarding gender and age group of the user who uttered the user voice, and when the user voice is received, the processor responds to the user voice Information may be acquired, and the obtained response information may be changed and provided according to at least one of the information on gender and age.
  • the processor operates in a voice recognition mode for a predetermined time from when a user voice for triggering a voice recognition mode of the electronic device is received, if the age range is greater than or equal to a preset threshold age, and the age zone is the If it is less than a predetermined threshold age, the preset time can be extended.
  • the utterance history information includes information related to user voice related to the content
  • the processor may provide response information corresponding to the user voice using content included in the utterance history information.
  • the utterance history information includes information on the number of times subsequent voices have not been received within a preset time from when a user voice for triggering the voice recognition mode of the electronic device has been received
  • the processor comprises: When a user voice is received, the number of times that the subsequent voice has not been received is determined based on the utterance history information corresponding to the characteristic of the user voice.
  • the set time can be extended.
  • the speech history information includes information on the number of errors provided when the recognition of the user voice fails, and the processor, when the user voice is received, the speech history information corresponding to the characteristics of the user voice Based on the determination of the number of errors, and if the number of errors is greater than or equal to a preset number of times, guide information for successful speech recognition may be provided.
  • the processor may provide guide information for inducing the utterance of a subsequent voice.
  • the control method of the electronic device when a user's voice is received, determining a level of accumulation of speech history information corresponding to a characteristic of the user's voice and an accumulation degree of the speech history information If the level is below a predetermined threshold level, response information corresponding to the user voice is provided based on user information related to the characteristics of the user voice, and if the accumulation level of the speech history information is higher than a predetermined threshold level, the And providing response information corresponding to the user voice based on the user information and the speech history information.
  • the user information includes at least one of information regarding gender and age group of the user who spoke the user voice, and the providing step corresponds to the user voice when the user voice is received.
  • the obtained response information may be obtained, and the obtained response information may be changed and provided according to at least one of the information on the gender and the information on the age group.
  • control method operates in a voice recognition mode for a predetermined time from when a user voice for triggering a voice recognition mode of the electronic device is received, if the age group is greater than or equal to a predetermined threshold age, and the age group is the If it is less than a predetermined threshold age, the method may further include extending the preset time.
  • the utterance history information includes information related to user voice related to the content
  • the providing step may provide response information corresponding to the user voice using content included in the utterance history information.
  • the utterance history information includes information on the number of times a subsequent voice has not been received within a preset time from when a user voice for triggering the voice recognition mode of the electronic device is received
  • the control method comprises: When the user voice is received, the number of times the subsequent voice has not been received is determined based on the speech history information corresponding to the characteristic of the user voice, and if the number of times the subsequent voice has not been received is greater than or equal to a preset number of times, the The method may further include extending the preset time.
  • the speech history information includes information on the number of errors provided as the recognition of the user voice fails
  • the providing step includes, when the user voice is received, the speech corresponding to the characteristics of the user voice The number of errors is determined based on the history information, and if the number of errors is greater than or equal to a preset number, guide information for success in speech recognition may be provided.
  • the present control method may further include providing guide information for inducing the utterance of a subsequent voice after providing the response information.
  • personalized response information may be provided to a user based on age, age, and / or speech history information of a user who has spoken speech.
  • the usability of the electronic device can be improved.
  • FIG. 1 is a block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a flowchart illustrating a method of providing response information based on characteristics of a user's voice according to an embodiment of the present disclosure.
  • 3A and 3B are diagrams for explaining an embodiment of providing response information corresponding to a user voice based on user information related to characteristics of the user voice according to an embodiment of the present disclosure.
  • 4A and 4B are diagrams for explaining an embodiment of providing response information corresponding to a user voice based on user information and speech history information related to a characteristic of the user voice according to an embodiment of the present disclosure.
  • FIG. 5 is a detailed block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • FIG. 6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • FIG. 1 is a block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • an electronic device 100 includes a voice receiver 110 and a processor 120.
  • the voice receiver 110 may receive a user voice. Specifically, the voice receiver 110 may receive an analog signal corresponding to the user voice.
  • the voice receiver 110 may be implemented as a microphone. In this case, the voice receiver 110 may be provided on one side of the electronic device 100.
  • the voice receiver 110 may be implemented with a wireless communication chip such as a Bluetooth chip or a Wi-Fi chip.
  • the voice receiver 110 may receive a user voice input through a microphone of an external device (eg, a remote controller) from the external device.
  • the voice receiving unit 110 may receive the user's voice converted into an analog signal or digital signal corresponding to the user's voice from the external device.
  • the voice receiving unit 100 is implemented as a microphone.
  • the processor 120 controls the overall operation of the electronic device 100.
  • the processor 120 may include one or more of a central processing unit (CPU), an application processor (AP), or a communication processor (CP). .
  • CPU central processing unit
  • AP application processor
  • CP communication processor
  • the processor 120 may receive a user voice through the voice receiver 110.
  • the processor 120 may convert a user voice, which is an analog signal, into a digital signal.
  • the processor 120 may use an analog / digital converter (not shown).
  • the processor 120 may convert a user voice into text. Specifically, the processor 120 may apply a STT (Speech to Text) algorithm to the user's voice converted into a digital signal to convert the user's voice into text.
  • STT Seech to Text
  • the processor 120 may extract speech elements from text.
  • the utterance element is at least one of a plurality of elements included in the user voice, and means a keyword for performing an operation requested by the user. For example, when a user's voice, such as "How is the weather in Seoul tomorrow," is received from the voice receiving unit 110, the processor 120 converts the user's voice into text, and then “tomorrow”, “Seoul” in the converted text , "Weather” and "how are you?"
  • the processor 120 may obtain response information corresponding to the user's voice based on the extracted speech element. Specifically, the processor 120 may search for information corresponding to the extracted speech element, and obtain the search result as response information.
  • the processor 120 may provide acquired response information. Specifically, the processor 120 may provide response information through a speaker (not shown) and / or a display (not shown). In the above-described embodiment, the processor 120 may provide the user with information about tomorrow's weather in Seoul by voice through a speaker (not shown) or by displaying it as text through a display (not shown).
  • the electronic device 100 may be implemented as an AI speaker. However, this is only an example, and the electronic device 100 may be implemented as various electronic devices capable of recognizing user voices, such as a smart phone, a tablet PC, a notebook, and a smart TV. Also, the electronic device 100 may be implemented as a wearable device such as a smart watch.
  • the electronic device 100 converts a user's voice into text has been described, but this may be performed by an external server (not shown). Specifically, when the user voice is received through the voice receiving unit 110, the electronic device 100 transmits it to an external server (not shown), and the application of the above-described STT algorithm is performed by an external server (not shown) Can be. In this case, the electronic device 100 may receive response information corresponding to the user's voice from an external server (not shown), and provide the received response information to the user.
  • the processor 120 may analyze characteristics of the user voice and provide response information based on the characteristics. Hereinafter, it will be described with reference to FIGS. 2 to 4B.
  • FIG. 2 is a flowchart illustrating a method of providing response information based on characteristics of a user's voice according to an embodiment of the present disclosure.
  • the processor 120 may receive the user voice through the voice receiver 110 (S210). As described above, when the voice receiver 110 is implemented as a microphone, the processor 120 may receive a user voice through a microphone.
  • the processor 120 may determine characteristics of the user's voice (S220). Specifically, when the user voice is received, the processor 120 may determine characteristics of the user voice, such as energy, frequency band, and / or reverberation time (RT) of the user voice. Meanwhile, the characteristics of the user's voice may be one embodiment, and the characteristics of the user's voice may be various characteristics that can distinguish a user who has spoken from another user.
  • characteristics of the user's voice such as energy, frequency band, and / or reverberation time (RT) of the user voice.
  • the characteristics of the user's voice may be one embodiment, and the characteristics of the user's voice may be various characteristics that can distinguish a user who has spoken from another user.
  • the processor 120 may determine the speech history information corresponding to the characteristics of the user's voice (S240). Specifically, the processor 120 may determine the utterance history information corresponding to the characteristics of the user's voice received through the voice receiver 110 from among the utterance history information stored for each characteristic of the user's voice in a memory (not shown).
  • the processor 120 among the speech history information stored for each characteristic of the user voice in the memory (not shown), the energy, frequency band, and / or the ringing value of the user voice received through the voice receiver 110
  • the speech history information matched with the characteristics of the user's voice within the predetermined error range may be determined as the speech history information corresponding to the characteristics of the user's voice received through the voice receiving unit 110.
  • the speech history information may include various information related to the user's voice.
  • the utterance history information is provided as information about the user's voice received through the voice receiving unit 110 in the past, information about the number of times the user's voice was received through the voice receiving unit 110, and the recognition of the user's voice has failed. It may include information on the number of errors and information on the speech rate of the user's voice.
  • the processor 120 may determine whether the accumulation level of the speech history information is equal to or higher than a predetermined threshold level (S240).
  • the accumulation level may be determined based on information on the number of times the user voice included in the speech history information has been received. For example, if the number of times a user voice included in the speech history information is received is 0 to 10 times, the processor 120 determines the accumulation level of speech history information as 1, and when the number of times the speech is received is 11 to 20 times, the processor 120 The higher the number of times a user voice is received, such as determining the accumulation level as 2, the higher the accumulation level of the speech history information can be determined.
  • the threshold level may be variously set according to a user command.
  • the threshold level can be set to 2.
  • the processor 120 provides response information corresponding to the user speech based on the user information related to the characteristics of the user speech (S250), and the speech history
  • response information corresponding to the user's voice may be provided based on user information and speech history information related to the characteristics of the user's voice (S260).
  • 3A and 3B are diagrams for explaining an embodiment of providing response information corresponding to a user voice based on user information related to characteristics of the user voice according to an embodiment of the present disclosure.
  • the processor 120 may obtain response information corresponding to the user voice.
  • the processor 120 may provide response information corresponding to the user voice based on the user information related to the characteristics of the user voice when the accumulation level of the utterance history information is less than a predetermined threshold level.
  • the user information related to the characteristics of the user voice may include at least one of information regarding gender and age group of the user who uttered the user voice.
  • the processor 120 utters the user voice based on characteristics of the user voice, such as energy, frequency band, and / or ringing value of the user voice. At least one of a user's gender and age group may be determined.
  • the processor 120 may change and provide the obtained response information according to at least one of the user's gender and age group.
  • the processor 120 may change and provide the obtained response information according to which of the preset groups the user's age group belongs to.
  • the first group of the preset group may include an age group of 10 years or older
  • the second group may include an age group of 0 to 10 years old.
  • the preset group may be variously set according to a user command.
  • the processor 120 may acquire information about today's Seoul weather through the aforementioned STT algorithm. Then, based on the characteristics of the user's voice, if it is determined that the user's age group belongs to the preset first group, the processor 120 provides the obtained response information without change, and the user's age group is assigned to the preset second group. If it is determined to belong, the processor 120 may change and provide the obtained response information to correspond to the second group.
  • the obtained response information is “Today's weather in Seoul is 2 degrees below zero.
  • the processor 120 determines that the user's age group is about 26 years old and belongs to the preset first group. “Today, the weather in Seoul is 2 degrees below zero. Kangsurang is expected to be 00mm ”. That is, the processor 120 may provide the obtained response information without change.
  • the processor 120 determines that the user's age group belongs to the preset second group as about 6 years of age, and says, “Today is cold weather. Be careful not to catch a cold! It is likely to rain soon, so be sure to bring your umbrella and rain boots ⁇ ”, by changing the words included in the obtained response information, or by adding at least one of onomatopoeia and onomatopoeia.
  • the processor 120 when a user voice such as “I brushed my teeth” is received through the voice receiving unit 110, the processor 120 exaggerates as “Well done” when it is determined that the user's age group belongs to the first group. Provides unanswered response information, and if it is determined that the user's age group belongs to the second group, “Wow! cool! You can exaggerate the expression by adding more exclamation points, such as “Cool without cavities!”.
  • the processor 120 determines that the user's age group belongs to the first group, “How about raising the indoor temperature by 2 degrees? ? ”To provide response information to solve a given problem, and when it is determined that the user's age group belongs to the second group, like“ Odoh ⁇ It ’s cold ⁇ When it's cold, I have to put on my clothes when I ’m cold so I ca n’t catch a cold ⁇ ” While sympathizing with the user's situation, it is possible to provide response information for solving a given problem.
  • the processor 120 may change and provide the obtained response information according to whether the user's gender is male or female. For example, when it is determined that the user is a 6-year-old woman, the processor 120 may provide response information using content preferred by a 6-year-old woman.
  • the processor 120 may use the above-described embodiment, “Today is cold weather. Be careful not to catch a cold! It's likely to rain soon, so be sure to bring your umbrella and rain boots ⁇ Penguins will be sad when it rains ⁇ ”can provide response information using the word penguin.
  • the processor 120 may store information on content preferred by the user according to gender and age. Alternatively, the processor 120 may determine the content preferred by the user who uttered the user's voice based on the information on the content received from the external server (not shown).
  • artificial intelligence technology is a technology that a computer machine learns and determines by itself, and the processor 120 relates to content preferred by a corresponding gender and age group through deep learning using an algorithm that classifies / learns the characteristics of input data by itself. Information can be obtained.
  • the present disclosure may cause interest to the user, and may transmit information in a language that is easy for the user to understand according to the user age group. .
  • the processor 120 may adjust the voice waiting time according to which group the user's age group belongs to.
  • the processor 120 may operate in the voice recognition mode for a predetermined time from when the user voice is received. For example, when a trigger voice such as “Hi, Bixby” is received, the processor 120 may operate in a voice recognition mode for a predetermined time (eg, 5 seconds).
  • the processor 120 may adjust the preset time, that is, the voice waiting time, according to which group of the group the user's age group belongs to.
  • the processor 120 operates in a voice recognition mode for a preset time if the user's age group is greater than or equal to a predetermined threshold age, and if the user's age group is less than a predetermined threshold age, extends the preset time. can do.
  • the processor 120 may extend the preset time to 10 seconds.
  • the voice recognition mode is unexpectedly terminated by a user who is not proficient in using the electronic device 100 by extending the voice waiting time. It can alleviate any inconvenience you may experience.
  • 4A and 4B are diagrams for explaining an embodiment of providing response information corresponding to a user voice based on user information and speech history information related to a characteristic of the user voice according to an embodiment of the present disclosure.
  • the processor 120 may obtain response information corresponding to the user voice.
  • the processor 120 may provide response information corresponding to the user voice based on the user information and the speech history information related to the characteristics of the user voice when the accumulation level of the speech history information is equal to or higher than a predetermined threshold level. .
  • the utterance history information may include information about the user's voice related to the content.
  • the speech history information may include information about the user's voice for retrieving specific content, information about the user's voice for reproducing specific content, and the like.
  • the processor 120 displays “Penguin” content. By using, it is possible to provide response information corresponding to the user's voice.
  • 4A is response information provided when a user voice such as “How is Seoul weather today?” Is received when the accumulation level of the speech history information is less than a predetermined threshold level.
  • the processor 120 may say, “Today is cold weather. Be careful not to catch a cold! It is likely to rain soon, so be sure to bring your umbrella and rain boots. ”
  • the processor 120 uses the “penguin” content for the user voice such as “How is the weather in Seoul today?” Response information corresponding to a user's voice may be provided. For example, as shown in FIG. 4B, the processor 120 may say, “Today is cold weather. Be careful not to catch a cold! It is likely to rain soon, so be sure to bring your umbrella and rain boots. Today, penguins will also be able to provide you with response information such as “I'm going to meet my friends with an umbrella.”
  • the present disclosure can cause interest to the user, and can easily convey information to the user.
  • the processor 120 may perform various functions based on various information included in the utterance history information.
  • the utterance history information may include information about the number of times a subsequent voice has not been received within a preset time from when a user voice for triggering the voice recognition mode of the electronic device 100 is received.
  • the processor 120 may operate in the voice recognition mode for a predetermined time from when the user voice is received. For example, when a trigger voice such as “Hi, Bixby” is received, the processor 120 may operate in a voice recognition mode for a predetermined time (eg, 5 seconds).
  • the processor 120 may exit the voice recognition mode and store information on the number of times the subsequent voice has not been received in the voice waiting time in the utterance history information.
  • the processor 120 determines the number of times the subsequent voice has not been received based on the utterance history information, and if the number of times the subsequent voice has not been received is greater than or equal to the preset number, the preset time is set. It can be extended. That is, the processor 120 may extend the voice waiting time if the number of times the subsequent voice has not been received is greater than or equal to a preset number of times.
  • the processor 120 extends the preset time to 10 seconds if it is determined that the speech recognition mode has been terminated by 5 or more subsequent non-receiving voices. Can be.
  • the utterance history information may include information on the number of errors provided as the recognition of the user's voice fails.
  • the processor 120 may be used when the speech rate of the user's speech is faster than the first threshold or slower than the second threshold, when the user speech includes a plurality of words above the threshold, or the interval between the user speech and the subsequent speech In a case in which the term of is shorter than a threshold or the like, the user's voice may not be recognized.
  • the processor 120 may provide error information as recognition of the user's voice fails. For example, the processor 120 "speech recognition failed. Please utter your voice again ”.
  • the processor 120 may store the number of times the error information is provided in the utterance history information.
  • the processor 120 may determine the number of times the error information is provided based on the speech history information, and if the number of times the error is greater than or equal to a preset number, guide information for success in speech recognition may be provided. .
  • the user voice may be a trigger voice.
  • the processor 120 may determine the number of times the error information is provided based on the speech history information, and if the number of errors is greater than or equal to a preset number, guide information for success in speech recognition may be provided. have.
  • the processor 120 determines the number of times the error information is provided based on the utterance history information, and if the number of errors is five or more, Guide information for successful speech recognition can be provided.
  • the guide information may be determined based on the reason for failing speech recognition.
  • the processor 120 may provide guide information for success in speech recognition, such as “Please speak slowly,” when providing error information for a predetermined number of times or more for a reason that the speech speed of the user voice is faster than a threshold value, , If the user's voice contains error information more than a preset number of times for a reason that a plurality of words above a threshold are included, guide information for success in speech recognition such as “Please speak in a short sentence” may be provided.
  • the processor 120 may provide response information corresponding to the user voice.
  • the processor 120 may provide guide information for inducing the utterance of a subsequent voice.
  • the processor 120 may provide guide information for inducing the utterance of a subsequent voice, such as “If you have any questions, please shout out Bixby vigorously.”
  • the present disclosure induces subsequent utterance of a user who is not proficient in the use of the electronic device 100, thereby using the electronic device 100. It can help you become proficient at it.
  • FIG. 5 is a detailed block diagram illustrating an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a voice receiving unit 110, a communication unit 130, a memory 140, a display 150, an input unit 160, and a speaker 170 And a processor 120.
  • the communication unit 130 may transmit and receive various data by performing communication with an external device.
  • the communication unit 130 may transmit a signal corresponding to the user's voice to an external server.
  • the signal may be an analog signal corresponding to a user's voice, as well as a digital signal converted from an analog signal.
  • the communication unit 130 may receive response information corresponding to the user's voice from an external server.
  • the communication unit 130 may include a wireless communication chip, a Wi-Fi chip, a Bluetooth chip, and the like.
  • the memory 140 may store an operating system (OS) for controlling the overall operation of the components of the electronic device 100 and commands or data related to the components of the electronic device 100.
  • OS operating system
  • the processor 120 may control a plurality of hardware or software components of the electronic device 100 using various commands or data stored in the storage 140, and from at least one of the other components
  • the received command or data may be loaded into a volatile memory and processed, and various data may be stored in a non-volatile memory.
  • the memory 140 may store utterance history information for each characteristic of the user's voice.
  • the utterance history information is information about the user voice received through the voice receiving unit 110, information about the number of times the user voice is received through the voice receiving unit 110, and the number of errors provided as the recognition of the user voice fails It may include information about the user and information about the speech rate of the user voice.
  • the display 150 may display various screens.
  • the display 150 may display a screen including response information corresponding to the user's voice.
  • the display 150 may be implemented as various types of displays, such as a liquid crystal display (LCD) and a plasma display panel (PDP).
  • the display 150 may also include a driving circuit, a backlight unit, and the like, which may be implemented in a form such as a-si TFT, low temperature poly silicon (LTPS) TFT, or organic TFT (OTFT).
  • the display 150 may be implemented as a touch screen in combination with a touch sensing unit.
  • the input unit 160 may receive user input.
  • the input unit 160 may include a button and a touch screen.
  • the speaker 170 is a component that outputs various audio data on which various processing tasks such as decoding, amplification, and noise filtering have been performed by an audio processing unit (not shown).
  • the speaker 170 may output response information corresponding to a user's voice as audio.
  • FIG. 6 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may determine the accumulation level of speech history information corresponding to the characteristic of the user voice (S610).
  • the electronic device 100 determines characteristics of the user's voice, such as the energy of the user's voice, the frequency band, and / or the ringing value of the user's voice, and receives the user voice among the utterance history stored in the memory
  • the accumulation level of the ignition history information corresponding to the characteristics of the may be determined.
  • the electronic device 100 may provide response information corresponding to the user's voice based on the user information related to the characteristics of the user's voice when the accumulation level of the utterance history information is less than a predetermined threshold level (S620).
  • the electronic device 100 may provide response information corresponding to the user's voice based on at least one of the gender and age of the user who spoke the speech. have.
  • the electronic device 100 may provide response information corresponding to the user's voice based on the user information and the speech history information if the accumulation level of the speech history information is greater than or equal to a predetermined threshold level (S630).
  • the electronic device 100 may include at least one of the above-mentioned user's gender and age, as well as information on the user's voice received in the past included in the speech history information, information on the number of times the user's voice was received, and the user's voice According to the failure of the recognition, information regarding the number of errors provided and information on the speech rate of the user's voice may be further considered to provide response information corresponding to the user's voice.
  • various embodiments of the present invention described above may be performed through an embedded server provided in an electronic device or a server external to the electronic device.
  • a non-transitory computer readable medium in which a program for sequentially performing a control method of an electronic device according to the present invention is stored may be provided.
  • a non-transitory readable medium means a medium that stores data semi-permanently and that can be read by a device, rather than a medium that stores data for a short time, such as registers, caches, and memory.
  • a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 음성 수신부 및 음성 수신부를 통해 사용자 음성이 수신되면, 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단하고, 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 사용자 음성의 특성과 관련된 사용자 정보에 기초하여 사용자 음성에 대응되는 응답 정보를 제공하고, 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상이면, 사용자 정보 및 발화 이력 정보에 기초하여 사용자 음성에 대응되는 응답 정보를 제공하는 프로세서를 포함한다.

Description

전자 장치 및 그 제어 방법
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 사용자의 음성을 인식할 수 있는 전자 장치 및 그 제어 방법에 관한 것이다.
최근 전자 기술의 발달로 다양한 전자 장치가 개발되고 있다. 특히, 최근에는 사용자의 음성을 인식하고, 사용자의 음성에 따라 동작하는 AI(Artificial Intelligence) 스피커, 스마트 폰, 스마트 TV 등의 음성 인식 장치가 개발되고 있다.
그런데, 종래의 음성 인식 장치는 사용자 음성이 수신되면, 정형화 된 형태의 응답 정보를 제공할 뿐이었다.
예를 들어, 사용자가 “오늘 서울 날씨 어때?”와 같은 음성을 발화한 경우, 종래의 음성 인식 장치는 “오늘 서울의 날씨는, 영하 2도 입니다. 강수랑은 10mm로 예상됩니다”와 같이, 정형화 된 형태의 응답 정보를 제공하였다.
이는, 개인화 된 형태의 응답 정보를 제공받길 원하는 사용자 니즈에 부합하지 못하는 문제가 있다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 사용자 음성의 특성에 기초하여 개인화 된 응답 정보를 제공하는 전자 장치 및 그 제어 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는 음성 수신부 및 상기 음성 수신부를 통해 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단하고, 상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 상기 사용자 음성의 특성과 관련된 사용자 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하고, 상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상이면, 상기 사용자 정보 및 상기 발화 이력 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하는 프로세서를 포함한다.
여기에서, 상기 사용자 정보는, 상기 사용자 음성을 발화한 사용자의 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나를 포함하고, 상기 프로세서는, 상기 사용자 음성이 수신되면, 상기 사용자 음성에 대응되는 응답 정보를 획득하고, 상기 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나에 따라, 상기 획득된 응답 정보를 변경하여 제공할 수 있다.
그리고, 상기 프로세서는, 상기 연령대가 기설정된 임계 나이 이상이면, 상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 동안 음성 인식 모드로 동작하고, 상기 연령대가 상기 기설정된 임계 나이 미만이면, 상기 기설정된 시간을 연장할 수 있다.
그리고, 상기 발화 이력 정보는, 컨텐츠와 관련된 사용자 음성에 관한 정보를 포함하고, 상기 프로세서는, 상기 사용자 음성에 대응되는 응답 정보를 상기 발화 이력 정보에 포함된 컨텐츠를 이용하여 제공할 수 있다.
그리고, 상기 발화 이력 정보는, 상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 내 후속 음성이 수신되지 않은 횟수에 관한 정보를 포함하고, 상기 프로세서는, 상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 후속 음성이 수신되지 않은 횟수를 판단하고, 상기 후속 음성이 수신되지 않은 횟수가 기설정된 횟수 이상이면, 상기 기설정된 시간을 연장할 수 있다.
그리고, 상기 발화 이력 정보는, 상기 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보를 포함하고, 상기 프로세서는, 상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 에러 횟수를 판단하고, 상기 에러 횟수가 기설정된 횟수 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공할 수 있다.
그리고, 상기 프로세서는, 상기 응답 정보 제공 후, 후속 음성의 발화를 유도하는 가이드 정보를 제공할 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단하는 단계 및 상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 상기 사용자 음성의 특성과 관련된 사용자 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하고, 상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상이면, 상기 사용자 정보 및 상기 발화 이력 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하는 단계를 포함한다.
여기에서, 상기 사용자 정보는, 상기 사용자 음성을 발화한 사용자의 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나를 포함하고, 상기 제공하는 단계는, 상기 사용자 음성이 수신되면, 상기 사용자 음성에 대응되는 응답 정보를 획득하고, 상기 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나에 따라, 상기 획득된 응답 정보를 변경하여 제공할 수 있다.
그리고, 본 제어 방법은 상기 연령대가 기설정된 임계 나이 이상이면, 상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 동안 음성 인식 모드로 동작하고, 상기 연령대가 상기 기설정된 임계 나이 미만이면, 상기 기설정된 시간을 연장하는 단계를 더 포함할 수 있다.
그리고, 상기 발화 이력 정보는, 컨텐츠와 관련된 사용자 음성에 관한 정보를 포함하고, 상기 제공하는 단계는, 상기 사용자 음성에 대응되는 응답 정보를 상기 발화 이력 정보에 포함된 컨텐츠를 이용하여 제공할 수 있다.
그리고, 상기 발화 이력 정보는, 상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 내 후속 음성이 수신되지 않은 횟수에 관한 정보를 포함하고, 상기 제어 방법은, 상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 후속 음성이 수신되지 않은 횟수를 판단하고, 상기 후속 음성이 수신되지 않은 횟수가 기설정된 횟수 이상이면, 상기 기설정된 시간을 연장하는 단계를 더 포함할 수 있다.
그리고, 상기 발화 이력 정보는, 상기 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보를 포함하고, 상기 제공하는 단계는, 상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 에러 횟수를 판단하고, 상기 에러 횟수가 기설정된 횟수 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공할 수 있다.
그리고, 본 제어 방법은 상기 응답 정보 제공 후, 후속 음성의 발화를 유도하는 가이드 정보를 제공하는 단계를 더 포함할 수 있다.
이상과 같은 본 개시의 다양한 실시 예에 따르면, 음성을 발화한 사용자의 연령대, 나이 및/또는 발화 이력 정보에 기초하여 개인화 된 응답 정보를 사용자에게 제공할 수 있다.
또한, AI 스피커 등의 전자 장치를 능숙하게 사용하지 못하는 사용자에게 가이드 정보 등을 제공함으로써, 전자 장치의 사용 능숙도를 향상시킬 수 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 사용자 음성의 특성에 기초하여 응답 정보를 제공하는 방법을 설명하기 위한 순서도이다.
도 3a 및 도 3b는 본 개시의 일 실시 예에 따른 사용자 음성의 특성과 관련된 사용자 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공하는 실시 예를 설명하기 위한 도면이다.
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른 사용자 음성의 특성과 관련된 사용자 정보 및 발화 이력 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공하는 실시 예를 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 상세 블록도이다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도이다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다.
나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 개시를 상세히 설명한다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 음성 수신부(110) 및 프로세서(120)를 포함한다.
음성 수신부(110)는 사용자 음성을 수신할 수 있다. 구체적으로, 음성 수신부(110)는 사용자 음성에 대응되는 아날로그 신호를 수신할 수 있다.
음성 수신부(110)는 마이크로 구현될 수 있다. 이 경우, 음성 수신부(110)는 전자 장치(100)의 일 측면에 구비될 수 있다.
한편, 음성 수신부(110)는 블루투스 칩, 와이파이 칩 등의 무선 통신 칩으로 구현될 수도 있다. 이 경우, 음성 수신부(110)는 외부 장치(예를 들어, 리모콘)의 마이크를 통해 입력된 사용자 음성을, 외부 장치로부터 수신할 수 있다.
구체적으로, 외부 장치의 마이크를 통해 사용자 음성이 입력되면, 음성 수신부(110)는 외부 장치로부터 사용자 음성에 대응되는 아날로그 신호 또는 디지털 신호로 변환된 사용자 음성을 수신할 수 있다.
이하에서는, 설명의 편의를 위해 음성 수신부(100)는 마이크로 구현되는 것으로 상정하여 설명한다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 이를 위해, 프로세서(120)는 중앙처리장치(central processing unit(CPU)), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다.
프로세서(120)는 음성 수신부(110)를 통해 사용자 음성을 수신할 수 있다. 그리고, 프로세서(120)는 아날로그 신호인 사용자 음성을 디지털 신호로 변환할 수 있다. 이를 위해, 프로세서(120)는 아날로그/디지털 컨버터(미도시)를 이용할 수 있다.
프로세서(120)는 사용자 음성을 텍스트로 변환할 수 있다. 구체적으로, 프로세서(120)는 디지털 신호로 변환된 사용자 음성에 STT(Speech to Text) 알고리즘을 적용하여, 사용자 음성을 텍스트로 변환할 수 있다.
프로세서(120)는 텍스트에서 발화 요소를 추출할 수 있다. 여기에서, 발화 요소는 사용자 음성에 포함된 복수의 요소 중 적어도 하나로써, 사용자가 요청한 동작을 수행하기 위한 키워드를 의미한다. 예를 들어, "내일 서울 날씨 어때"와 같은 사용자 음성이 음성 수신부(110)로부터 수신된 경우, 프로세서(120)는 사용자 음성을 텍스트로 변환한 후, 변환된 텍스트에서 "내일", "서울", "날씨" 및 "어때?"라는 발화 요소를 추출할 수 있다.
그리고, 프로세서(120)는 추출한 발화 요소에 기초해서, 사용자 음성에 대응되는 응답 정보를 획득할 수 있다. 구체적으로, 프로세서(120)는 추출한 발화 요소에 대응되는 정보를 써치하고, 그 써치 결과를 응답 정보로 획득할 수 있다.
프로세서(120)는 획득한 응답 정보를 제공할 수 있다. 구체적으로, 프로세서(120)는 스피커(미도시) 및/또는 디스플레이(미도시) 등을 통해 응답 정보를 제공할 수 있다. 상술한 실시 예에서, 프로세서(120)는 내일의 서울 날씨에 관한 정보를 스피커(미도시)를 통해 음성으로 출력하거나, 디스플레이(미도시)를 통해 텍스트로 표시함으로써, 사용자에게 제공할 수 있다.
이와 같은 전자 장치(100)는 AI 스피커로 구현될 수 있다. 다만, 이는 일 실시 예일 뿐, 전자 장치(100)는 스마트 폰, 태블릿 PC, 노트북, 스마트 TV 등과 같이 사용자 음성을 인식할 수 있는 다양한 전자 장치로 구현될 수 있다. 또한, 전자 장치(100)는 스마트 워치 등의 웨어러블 디바이스로 구현될 수도 있다.
한편, 여기서는 전자 장치(100)가 사용자 음성을 텍스트로 변환하는 실시 예를 설명하였으나, 이는 외부 서버(미도시)에 의해 수행될 수도 있다. 구체적으로, 전자 장치(100)는 음성 수신부(110)를 통해 사용자 음성이 수신되면, 이를 외부 서버(미도시)로 전송하고, 상술한 STT 알고리즘의 적용 등은 외부 서버(미도시)에 의해 수행될 수 있다. 이 경우, 전자 장치(100)는 외부 서버(미도시)로부터 사용자 음성에 대응되는 응답 정보를 수신하고, 수신한 응답 정보를 사용자에게 제공할 수 있다.
한편, 프로세서(120)는 사용자 음성이 수신되면, 사용자 음성의 특성을 분석하고, 그 특성에 기초하여 응답 정보를 제공할 수 있다. 이하, 도 2 내지 도 4b를 참조하여 설명한다.
도 2는 본 개시의 일 실시 예에 따른 사용자 음성의 특성에 기초하여 응답 정보를 제공하는 방법을 설명하기 위한 순서도이다.
프로세서(120)는 음성 수신부(110)를 통해 사용자 음성을 수신(S210)할 수 있다. 전술한 바와 같이, 음성 수신부(110)가 마이크로 구현되는 경우, 프로세서(120)는 마이크를 통해 사용자 음성을 수신할 수 있다.
프로세서(120)는 사용자 음성의 특성을 판단(S220)할 수 있다. 구체적으로, 프로세서(120)는 사용자 음성이 수신되면, 사용자 음성의 에너지, 주파수 대역 및/또는 사용자 음성의 울림 값 (RT, reverberation time)과 같은 사용자 음성의 특성을 판단할 수 있다. 한편, 이와 같은 사용자 음성의 특성은 일 실시 예이고, 사용자 음성의 특성은 음성을 발화한 사용자를 다른 사용자와 구분할 수 있는 다양한 특성이 될 수 있다.
프로세서(120)는 사용자 음성의 특성에 대응되는 발화 이력 정보를 판단(S240)할 수 있다. 구체적으로, 프로세서(120)는 메모리(미도시)에 사용자 음성의 특성 별로 저장된 발화 이력 정보 중에서, 음성 수신부(110)를 통해 수신된 사용자 음성의 특성에 대응되는 발화 이력 정보를 판단할 수 있다.
보다 구체적으로, 프로세서(120)는 메모리(미도시)에 사용자 음성의 특성 별로 저장된 발화 이력 정보 중에서, 음성 수신부(110)를 통해 수신된 사용자 음성의 에너지, 주파수 대역 및/또는 사용자 음성의 울림 값과 기설정된 오차 범위 내에 있는 사용자 음성의 특성에 매칭된 발화 이력 정보를, 음성 수신부(110)를 통해 수신된 사용자 음성의 특성에 대응되는 발화 이력 정보로 판단할 수 있다.
여기에서, 발화 이력 정보는 사용자 음성과 관련된 다양한 정보를 포함할 수 있다. 구체적으로, 발화 이력 정보는 과거에 음성 수신부(110)를 통해 수신된 사용자 음성에 관한 정보, 음성 수신부(110)를 통해 사용자 음성이 수신된 횟수에 관한 정보, 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보 및 사용자 음성의 발화 속도에 관한 정보 등을 포함할 수 있다.
프로세서(120)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상인지를 판단(S240)할 수 있다.
여기에서, 축적도 레벨은 발화 이력 정보에 포함된 사용자 음성이 수신된 횟수에 관한 정보에 기초하여 결정될 수 있다. 예를 들어, 프로세서(120)는 발화 이력 정보에 포함된 사용자 음성이 수신된 횟수가 0 내지 10회이면 발화 이력 정보의 축적도 레벨을 1로 결정하고, 11회 내지 20회이면 발화 이력 정보의 축적도 레벨을 2로 결정하는 등 사용자 음성이 수신된 횟수가 커질수록, 발화 이력 정보의 축적도 레벨을 높게 결정할 수 있다.
그리고, 임계 레벨은 사용자 명령에 따라 다양하게 설정될 수 있다. 예를 들어, 임계 레벨은 2로 설정될 수 있다.
이후, 프로세서(120)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만인 경우, 사용자 음성의 특성과 관련된 사용자 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공(S250)하고, 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상인 경우, 사용자 음성의 특성과 관련된 사용자 정보 및 발화 이력 정보에 기초하여 사용자 음성에 대응되는 응답 정보를 제공(S260)할 수 있다.
이하, 도 3a 내지 도 4b를 참조하여 설명한다.
도 3a 및 도 3b는 본 개시의 일 실시 예에 따른 사용자 음성의 특성과 관련된 사용자 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공하는 실시 예를 설명하기 위한 도면이다.
전술한 바와 같이, 프로세서(120)는 사용자 음성이 수신되면, 사용자 음성에 대응되는 응답 정보를 획득할 수 있다.
그리고, 프로세서(120)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만인 경우, 사용자 음성의 특성과 관련된 사용자 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공할 수 있다.
여기에서, 사용자 음성의 특성과 관련된 사용자 정보는, 사용자 음성을 발화한 사용자의 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나를 포함할 수 있다.
구체적으로, 프로세서(120)는 음성 수신부(110)를 통해 사용자 음성이 수신되면, 사용자 음성의 에너지, 주파수 대역 및/또는 사용자 음성의 울림 값과 같은 사용자 음성의 특성에 기초하여, 사용자 음성을 발화한 사용자의 성별 및 연령대 중 적어도 하나를 판단할 수 있다.
그리고, 프로세서(120)는 사용자의 성별 및 연령대 중 적어도 하나에 따라, 획득한 응답 정보를 변경하여 제공할 수 있다.
구체적으로, 프로세서(120)는 사용자의 연령대가 기설정된 그룹 중 어느 그룹에 속하는지에 따라, 획득한 응답 정보를 변경하여 제공할 수 있다. 여기에서, 기설정된 그룹의 제1 그룹은 만 10세 이상의 연령대를 포함하고, 제2 그룹은 만 0세부터 만 10세까지의 연령대를 포함할 수 있다. 다만, 이는 일 실시 예일 뿐, 기설정된 그룹은 사용자 명령에 따라 다양하게 설정될 수 있다.
예를 들어, 사용자가 “오늘 서울 날씨 어때”를 발화한 경우, 프로세서(120)는 전술한 STT 알고리즘 등을 통해, 오늘의 서울 날씨에 관한 정보를 획득할 수 있다. 그리고, 사용자 음성의 특성에 기초하여, 사용자의 연령대가 기설정된 제1 그룹에 속하는 것으로 판단되면, 프로세서(120)는 획득한 응답 정보를 변경 없이 제공하고, 사용자의 연령대가 기설정된 제2 그룹에 속하는 것으로 판단되면, 프로세서(120)는 획득한 응답 정보를 제2 그룹에 대응되도록 변경하여 제공할 수 있다.
도 3a를 참조하면, 획득한 응답 정보가 “오늘 서울의 날씨는, 영하 2도 입니다. 강수랑은 30mm로 예상됩니다”인 경우, 프로세서(120)는 사용자의 연령대가 약 26세로써 기설정된 제1 그룹에 속하는 것으로 판단되면, “오늘 서울의 날씨는, 영하 2도 입니다. 강수랑은 00mm로 예상됩니다”와 같은 응답 정보를 제공할 수 있다. 즉, 프로세서(120)는 획득한 응답 정보를 변경 없이 제공할 수 있다.
도 3b를 참조하면, 프로세서(120)는 사용자의 연령대가 약 6세로써 기설정된 제2 그룹에 속하는 것으로 판단되면, “오늘은 오들오들 추운 날씨에요. 콜록콜록 감기에 걸리지 않도록 조심 또 조심! 곧 비가 올 것 같으니 우산과 장화는 꼭 챙기세요~”와 같이, 획득한 응답 정보에 포함된 단어를 변경하여 제공하거나, 의성어 및 의태어 중 적어도 하나를 더 부가하여 제공할 수 있다.
다른 실시 예로, 음성 수신부(110)를 통해 “나 양치했어”와 같은 사용자 음성이 수신된 경우, 프로세서(120)는 사용자의 연령대가 제1 그룹에 속하는 것으로 판단되면, “잘 하셨네요”와 같이 과장되지 않은 응답 정보를 제공하고, 사용자의 연령대가 제2 그룹에 속하는 것으로 판단되면, “우와! 멋있어요! 충치 없는 멋쟁이네요!”와 같이 감탄사를 더 포함하는 등의 방법으로 표현을 과장하여 제공할 수 있다.
또한, 음성 수신부(110)를 통해 “나 추워”와 같은 사용자 음성이 수신된 경우, 프로세서(120)는 사용자의 연령대가 제1 그룹에 속하는 것으로 판단되면, “실내 온도를 2도 높여보는 건 어때요?”와 같이 주어진 문제를 해결하기 위한 응답 정보를 제공하고, 사용자의 연령대가 제2 그룹에 속하는 것으로 판단되면, “오들오들~ 추워요~ 추울 땐 옷을 꽁꽁 껴입어야 감기에 안 걸려요~”와 같이 사용자의 상황을 공감하면서, 주어진 문제를 해결하기 위한 응답 정보를 제공할 수 있다.
또한, 프로세서(120)는 사용자의 성별이 남성인지 또는 여성인지에 따라, 획득한 응답 정보를 변경하여 제공할 수 있다. 예를 들어, 프로세서(120)는 사용자가 만 6세의 여자라고 판단된 경우, 만 6세의 여자가 선호하는 컨텐츠를 이용하여 응답 정보를 제공할 수 있다.
예를 들어, 만 6세의 여자가 선호하는 컨텐츠가 펭귄인 것으로 판단되면, 프로세서(120)는 상술한 실시 예에서, “오늘은 오들오들 추운 날씨에요. 콜록콜록 감기에 걸리지 않도록 조심 또 조심! 곧 비가 올 것 같으니 우산과 장화는 꼭 챙기세요~ 펭귄도 비를 맞으면 슬퍼할 거에요~”와 같이, 펭귄이라는 단어를 이용한 응답 정보를 제공할 수 있다.
이를 위해, 프로세서(120)는 성별 및 연령대에 따라 사용자가 선호하는 컨텐츠에 관한 정보를 저장하고 있을 수 있다. 또는, 프로세서(120)는 외부 서버(미도시)로부터 수신된 컨텐츠에 관한 정보에 기초하여, 사용자 음성을 발화한 사용자가 선호하는 컨텐츠를 판단할 수 있다.
또한, 상술한 컨텐츠는 인공 지능 기술을 통해 획득될 수도 있다. 여기에서, 인공 지능 기술은 컴퓨터 기계가 스스로 학습하고 판단하는 기술로써, 프로세서(120)는 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘을 이용하는 딥러닝을 통해 해당 성별 및 연령대가 선호하는 컨텐츠에 관한 정보를 획득할 수 있다.
이와 같이, 음성을 발화한 사용자의 나이 및 연령대를 고려하여 응답 정보를 제공함으로써, 본 개시는 사용자에게 흥미를 유발시킬 수 있고, 사용자 연령 대에 따라 사용자가 이해하기 쉬운 언어로 정보를 전달할 수 있다.
한편, 프로세서(120)는 사용자의 연령대가 기설정된 그룹 중 어느 그룹에 속하는지에 따라 음성 대기 시간을 조절할 수 있다.
구체적으로, 프로세서(120)는 전자 장치(100)의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신되면, 사용자 음성이 수신된 때로부터, 기설정된 시간 동안 음성 인식 모드로 동작할 수 있다. 예를 들어, “Hi, Bixby”와 같은 트리거 음성이 수신되면, 프로세서(120)는 기설정된 시간(가령, 5초)동안 음성 인식 모드로 동작할 수 있다.
이때, 프로세서(120)는 사용자의 연령대가 기설정된 그룹 중 어느 그룹에 속하는지에 따라 상술한 기설정된 시간, 즉 음성 대기 시간을 조절할 수 있다.
구체적으로, 프로세서(120)는 사용자의 연령대가 기설정된 임계 나이 이상이면, 상술한 기설정된 시간 동안 음성 인식 모드로 동작하고, 사용자의 연령대가 기설정된 임계 나이 미만이면, 상술한 기설정된 시간을 연장할 수 있다.
예를 들어, 임계 나이가 15세인 경우, 6세인 사용자가 음성을 발화한 것으로 판단되면, 프로세서(120)는 기설정된 시간을 10초로 연장할 수 있다.
이와 같이, 어린 연령 대의 사용자(또는, 높은 연령 대의 사용자)를 고려하여, 음성 대기 시간을 연장함으로써, 본 개시는 전자 장치(100)의 사용에 능숙하지 못한 사용자가 예기치 않게 음성 인식 모드가 종료되어 겪을 수 있는 불편함을 해소할 수 있다.
도 4a 및 도 4b는 본 개시의 일 실시 예에 따른 사용자 음성의 특성과 관련된 사용자 정보 및 발화 이력 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공하는 실시 예를 설명하기 위한 도면이다.
전술한 바와 같이, 프로세서(120)는 사용자 음성이 수신되면, 사용자 음성에 대응되는 응답 정보를 획득할 수 있다.
그리고, 프로세서(120)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상인 경우, 사용자 음성의 특성과 관련된 사용자 정보 및 발화 이력 정보에 기초하여, 사용자 음성에 대응되는 응답 정보를 제공할 수 있다.
여기에서, 발화 이력 정보는 컨텐츠와 관련된 사용자 음성에 관한 정보를 포함할 수 있다. 구체적으로, 발화 이력 정보는 특정 컨텐츠를 검색하기 위한 사용자 음성에 관한 정보 및 특정 컨텐츠를 재생하기 위한 사용자 음성에 관한 정보 등을 포함할 수 있다.
예를 들어, 사용자가 “펭귄 프로그램 찾아줘”, “펭귄은 언제 방송해?”와 같은 “펭귄” 컨텐츠와 관련된 사용자 음성을 기설정된 횟수 이상 발화한 경우, 프로세서(120)는 “펭귄” 컨텐츠를 이용하여, 사용자 음성에 대응되는 응답 정보를 제공할 수 있다.
도 4a는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만인 경우, “오늘 서울 날씨 어때?”와 같은 사용자 음성이 수신될 때 제공되는 응답 정보이다. 도 4a를 참조하면, “오늘 서울 날씨 어때?”와 같은 사용자 음성에 대해, 프로세서(120)는 “오늘은 오들오들 추운 날씨에요. 콜록콜록 감기에 걸리지 않도록 조심 또 조심! 곧 비가 올 것 같으니 우산과 장화는 꼭 챙기세요~”와 같은 응답 정보를 제공할 수 있다.
도 4b는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상인 경우, “오늘 서울 날씨 어때?”와 같은 사용자 음성이 수신될 때 제공되는 응답 정보이다. 프로세서(120)는 발화 이력 정보에 “펭귄” 컨텐츠와 관련된 사용자 음성이 기설정된 횟수 이상 수신된 것으로 판단되면, “오늘 서울 날씨 어때?”와 같은 사용자 음성에 대해, “펭귄” 컨텐츠를 이용하여, 사용자 음성에 대응되는 응답 정보를 제공할 수 있다. 예를 들어, 도 4b에 도시된 바와 같이, 프로세서(120)는 “오늘은 오들오들 추운 날씨에요. 콜록콜록 감기에 걸리지 않도록 조심 또 조심! 곧 비가 올 것 같으니 우산과 장화는 꼭 챙기세요~ 오늘은 펭귄도 우산을 들고 친구들을 만나러 갈 거에요~” 와 같은 응답 정보를 제공할 수 있다.
이와 같이, 음성을 발화한 사용자의 특성 및 발화 이력 정보를 함께 고려하여 응답 정보를 제공함으로써, 본 개시는 사용자에게 흥미를 유발시킬 수 있고, 사용자가 이해하기 쉽게 정보를 전달할 수 있다.
한편, 상술한 실시 예 외에도, 프로세서(120)는 발화 이력 정보에 포함된 다양한 정보에 기초하여, 다양한 기능을 수행할 수 있다.
일 예로, 발화 이력 정보에는 전자 장치(100)의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 내 후속 음성이 수신되지 않은 횟수에 관한 정보가 포함될 수 있다.
구체적으로, 프로세서(120)는 전자 장치(100)의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신되면, 사용자 음성이 수신된 때로부터, 기설정된 시간 동안 음성 인식 모드로 동작할 수 있다. 예를 들어, “Hi, Bixby”와 같은 트리거 음성이 수신되면, 프로세서(120)는 기설정된 시간(가령, 5초)동안 음성 인식 모드로 동작할 수 있다.
이때, 프로세서(120)는 음성 인식 모드로 동작하는 동안 후속 음성이 수신되지 않으면 음성 인식 모드를 종료하고, 음성 대기 시간 내 후속 음성이 수신되지 않은 횟수에 관한 정보를 발화 이력 정보에 저장할 수 있다.
이후, 프로세서(120)는 사용자 음성이 수신되면, 발화 이력 정보에 기초하여 후속 음성이 수신되지 않은 횟수를 판단하고, 후속 음성이 수신되지 않은 횟수가 기설정된 횟수 이상이면, 상술한 기설정된 시간을 연장할 수 있다. 즉, 프로세서(120)는 후속 음성이 수신되지 않은 횟수가 기설정된 횟수 이상이면, 음성 대기 시간을 연장할 수 있다.
예를 들어, 기설정된 횟수가 5회이고 기설정된 시간이 5초인 경우, 프로세서(120)는 5회 이상 후속 음성 미수신에 의해 음성 인식 모드가 종료된 것으로 판단되면, 기설정된 시간을 10초로 연장할 수 있다.
이는, 전자 장치(100)의 사용 능숙도가 높지 않은 사용자를 고려한 것으로써, 이에 따라 본 개시는 전자 장치(100)의 사용에 능숙하지 못한 사용자가 예기치 않게 음성 인식 모드가 종료되어 겪을 수 있는 불편함을 해소할 수 있다.
한편, 발화 이력 정보는 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보를 포함할 수 있다.
구체적으로, 프로세서(120)는 사용자 음성의 발화 속도가 제1 임계치 이상으로 빠르거나 제2 임계치 이하로 느린 경우, 사용자 음성에 임계치 이상의 복수의 단어가 포함된 경우 또는, 사용자 음성 및 후속 음성 사이 구간의 텀(term)이 임계치 이하로 짧은 경우 등에 있어서, 사용자 음성을 인식하지 못할 수 있다.
이 경우, 프로세서(120)는 사용자 음성의 인식이 실패함에 따라 에러 정보를 제공할 수 있다. 예를 들어, 프로세서(120)는 “음성 인식에 실패하였습니다. 다시 음성을 발화해 주세요”와 같은 에러 정보를 사용자에게 제공할 수 있다.
그리고, 프로세서(120)는 에러 정보를 제공한 횟수를 발화 이력 정보에 저장할 수 있다.
이후, 프로세서(120)는 사용자 음성이 수신되면, 발화 이력 정보에 기초하여 에러 정보를 제공한 횟수를 판단하고, 에러 횟수가 기설정된 횟수 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공할 수 있다.
여기에서, 사용자 음성은 트리거 음성이 될 수 있다. 구체적으로, 프로세서(120)는 트리거 음성이 수신되면, 발화 이력 정보에 기초하여 에러 정보를 제공한 횟수를 판단하고, 에러 횟수가 기설정된 횟수 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공할 수 있다.
예를 들어, 기설정된 횟수가 5회라고 가정하였을 때, 프로세서(120)는 트리거 음성이 수신되면, 발화 이력 정보에 기초하여 에러 정보를 제공한 횟수를 판단하고, 에러 횟수가 5회 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공할 수 있다.
여기에서, 가이드 정보는 음성 인식을 실패한 이유에 기초하여 결정될 수 있다. 구체적으로, 프로세서(120)는 용자 음성의 발화 속도가 임계치 이상으로 빠른 이유에서 기설정된 횟수 이상 에러 정보를 제공한 경우, “천천히 말씀해주세요”와 같은 음성 인식 성공을 위한 가이드 정보를 제공할 수 있고, 사용자 음성에 임계치 이상의 복수의 단어가 포함된 이유에서 기설정된 횟수 이상 에러 정보를 제공한 경우, “짧은 문장으로 말씀해주세요”와 같은 음성 인식 성공을 위한 가이드 정보를 제공할 수 있다.
이후, 프로세서(120)는 사용자 음성이 수신되면, 사용자 음성에 대응되는 응답 정보를 제공할 수 있다.
한편, 프로세서(120)는 응답 정보 제공 후, 후속 음성의 발화를 유도하는 가이드 정보를 제공할 수 있다.
예를 들어, 프로세서(120)는 응답 정보 제공 후, “또, 궁금한 것이 있다면 빅스비를 힘차게 외쳐주세요”와 같은 후속 음성의 발화를 유도하는 가이드 정보를 제공할 수 있다.
이는, 전자 장치(100)의 사용 능숙도가 높지 않은 사용자를 고려한 것으로써, 이에 따라 본 개시는 전자 장치(100)의 사용에 능숙하지 못한 사용자의 후속 발화를 유도함으로써, 전자 장치(100)의 사용에 능숙해지도록 도움을 줄 수 있다.
도 5는 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 상세 블록도이다.
도 5를 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 음성 수신부(110), 통신부(130), 메모리(140), 디스플레이(150), 입력부(160), 스피커(170) 및 프로세서(120)를 포함할 수 있다. 이하, 상술한 부분과 중복되는 부분은 설명은 축약하거나 생략하여 설명한다.
통신부(130)는 외부 장치와 통신을 수행하여 다양한 데이터를 송수신할 수 있다. 특히, 통신부(130)는 사용자 음성에 대응되는 신호를 외부 서버로 전송할 수 있다. 여기에서, 신호는 사용자 음성에 대응되는 아날로그 신호가 될 수 있음은 물론, 아날로그 신호를 변환한 디지털 신호가 될 수 있다. 또한, 통신부(130)는 외부 서버로부터 사용자 음성에 대응되는 응답 정보를 수신할 수 있다.
이를 위해, 통신부(130)는 무선 통신 칩, 와이 파이 칩, 블루투스 칩 등을 포함할 수 있다.
메모리(140)는 전자 장치(100)의 구성요소의 전반적인 동작을 제어하기 위한 운영체제(Operating System: OS) 및 전자 장치(100)의 구성요소와 관련된 명령 또는 데이터를 저장할 수 있다.
이에 따라, 프로세서(120)는 저장부(140)에 저장된 다양한 명령 또는 데이터 등을 이용하여 전자 장치(100)의 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 다른 구성요소들 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장(store)할 수 있다.
특히, 메모리(140)는 사용자 음성의 특성 별로 발화 이력 정보를 저장할 수 있다. 여기에서, 발화 이력 정보는 음성 수신부(110)를 통해 수신된 사용자 음성에 관한 정보, 음성 수신부(110)를 통해 사용자 음성이 수신된 횟수에 관한 정보, 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보 및 사용자 음성의 발화 속도에 관한 정보 등을 포함할 수 있다.
디스플레이(150)는 다양한 화면을 표시할 수 있다. 예를 들어, 디스플레이(150)는 사용자 음성에 대응되는 응답 정보를 포함하는 화면을 표시할 수 있다.
이러한 디스플레이(150)는 LCD(Liquid Crystal Display), PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(150) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(150)는 터치 감지부와 결합되어 터치 스크린으로 구현될 수 있다.
입력부(160)는 사용자 입력을 수신할 수 있다. 입력부(160)는 버튼, 터치 스크린을 포함할 수 있다.
스피커(170)는 오디오 처리부(미도시)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터를 출력하는 구성이다.
본 개시의 일 실시 예에 따르면, 스피커(170)는 사용자 음성에 대응되는 응답 정보를 오디오로 출력할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 순서도이다.
본 개시의 일 실시 예에 따른 전자 장치(100)는 사용자 음성이 수신되면, 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단(S610)할 수 있다.
구체적으로, 전자 장치(100)는 사용자 음성이 수신되면, 사용자 음성의 에너지, 주파수 대역 및/또는 사용자 음성의 울림 값과 같은 사용자 음성의 특성을 판단하고, 메모리에 저장된 발화 이력 중 수신된 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단할 수 있다.
그리고, 전자 장치(100)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 사용자 음성의 특성과 관련된 사용자 정보에 기초하여 사용자 음성에 대응되는 응답 정보를 제공(S620)할 수 있다.
구체적으로, 전자 장치(100)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 음성을 발화한 사용자의 성별 및 연령대 중 적어도 하나에 기초하여 사용자 음성에 대응되는 응답 정보를 제공할 수 있다.
그리고, 전자 장치(100)는 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상이면, 사용자 정보 및 발화 이력 정보에 기초하여 사용자 음성에 대응되는 응답 정보를 제공(S630)할 수 있다.
구체적으로, 전자 장치(100)는 상술한 사용자의 성별 및 연령대 중 적어도 하나뿐만 아니라, 발화 이력 정보에 포함된 과거에 수신된 사용자 음성에 관한 정보, 사용자 음성이 수신된 횟수에 관한 정보, 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보 및 사용자 음성의 발화 속도에 관한 정보 등을 더 고려하여 사용자 음성에 대응되는 응답 정보를 제공할 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 소프트웨어 또는 어플리케이션 형태로 구현될 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드만으로도 구현될 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치 외부의 서버를 통해 수행되는 것도 가능하다.
한편, 본 발명에 따른 전자 장치의 제어 방법을 순차적으로 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
한편, 비일시적 판독 가능 매체란 레지스터, 캐시, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (14)

  1. 전자 장치에 있어서,
    음성 수신부; 및
    상기 음성 수신부를 통해 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단하고,
    상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 상기 사용자 음성의 특성과 관련된 사용자 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하고,
    상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상이면, 상기 사용자 정보 및 상기 발화 이력 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하는 프로세서;를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 사용자 정보는, 상기 사용자 음성을 발화한 사용자의 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나를 포함하고,
    상기 프로세서는,
    상기 사용자 음성이 수신되면, 상기 사용자 음성에 대응되는 응답 정보를 획득하고, 상기 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나에 따라, 상기 획득된 응답 정보를 변경하여 제공하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 연령대가 기설정된 임계 나이 이상이면, 상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 동안 음성 인식 모드로 동작하고,
    상기 연령대가 상기 기설정된 임계 나이 미만이면, 상기 기설정된 시간을 연장하는, 전자 장치.
  4. 제1항에 있어서,
    상기 발화 이력 정보는,
    컨텐츠와 관련된 사용자 음성에 관한 정보를 포함하고,
    상기 프로세서는,
    상기 사용자 음성에 대응되는 응답 정보를 상기 발화 이력 정보에 포함된 컨텐츠를 이용하여 제공하는, 전자 장치.
  5. 제1항에 있어서,
    상기 발화 이력 정보는,
    상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 내 후속 음성이 수신되지 않은 횟수에 관한 정보를 포함하고,
    상기 프로세서는,
    상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 후속 음성이 수신되지 않은 횟수를 판단하고, 상기 후속 음성이 수신되지 않은 횟수가 기설정된 횟수 이상이면, 상기 기설정된 시간을 연장하는, 전자 장치.
  6. 제1항에 있어서,
    상기 발화 이력 정보는,
    상기 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보를 포함하고,
    상기 프로세서는,
    상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 에러 횟수를 판단하고, 상기 에러 횟수가 기설정된 횟수 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공하는, 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 응답 정보 제공 후, 후속 음성의 발화를 유도하는 가이드 정보를 제공하는, 전자 장치.
  8. 전자 장치의 제어 방법에 있어서,
    사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 발화 이력 정보의 축적도 레벨을 판단하는 단계; 및
    상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 미만이면, 상기 사용자 음성의 특성과 관련된 사용자 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하고, 상기 발화 이력 정보의 축적도 레벨이 기설정된 임계 레벨 이상이면, 상기 사용자 정보 및 상기 발화 이력 정보에 기초하여 상기 사용자 음성에 대응되는 응답 정보를 제공하는 단계;를 포함하는, 전자 장치의 제어 방법.
  9. 제8항에 있어서,
    상기 사용자 정보는, 상기 사용자 음성을 발화한 사용자의 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나를 포함하고,
    상기 제공하는 단계는,
    상기 사용자 음성이 수신되면, 상기 사용자 음성에 대응되는 응답 정보를 획득하고, 상기 성별에 관한 정보 및 연령대에 관한 정보 중 적어도 하나에 따라, 상기 획득된 응답 정보를 변경하여 제공하는, 전자 장치의 제어 방법.
  10. 제9항에 있어서,
    상기 연령대가 기설정된 임계 나이 이상이면, 상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 동안 음성 인식 모드로 동작하고, 상기 연령대가 상기 기설정된 임계 나이 미만이면, 상기 기설정된 시간을 연장하는 단계;를 더 포함하는, 전자 장치의 제어 방법.
  11. 제8항에 있어서,
    상기 발화 이력 정보는,
    컨텐츠와 관련된 사용자 음성에 관한 정보를 포함하고,
    상기 제공하는 단계는,
    상기 사용자 음성에 대응되는 응답 정보를 상기 발화 이력 정보에 포함된 컨텐츠를 이용하여 제공하는, 전자 장치의 제어 방법.
  12. 제8항에 있어서,
    상기 발화 이력 정보는,
    상기 전자 장치의 음성 인식 모드를 트리거 하기 위한 사용자 음성이 수신된 때로부터, 기설정된 시간 내 후속 음성이 수신되지 않은 횟수에 관한 정보를 포함하고,
    상기 제어 방법은,
    상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 후속 음성이 수신되지 않은 횟수를 판단하고, 상기 후속 음성이 수신되지 않은 횟수가 기설정된 횟수 이상이면, 상기 기설정된 시간을 연장하는 단계;를 더 포함하는, 전자 장치의 제어 방법.
  13. 제8항에 있어서,
    상기 발화 이력 정보는,
    상기 사용자 음성의 인식이 실패함에 따라 제공된 에러 횟수에 관한 정보를 포함하고,
    상기 제공하는 단계는,
    상기 사용자 음성이 수신되면, 상기 사용자 음성의 특성에 대응되는 상기 발화 이력 정보에 기초하여 상기 에러 횟수를 판단하고, 상기 에러 횟수가 기설정된 횟수 이상이면, 음성 인식 성공을 위한 가이드 정보를 제공하는, 전자 장치의 제어 방법.
  14. 제8항에 있어서,
    상기 응답 정보 제공 후, 후속 음성의 발화를 유도하는 가이드 정보를 제공하는 단계;를 더 포함하는, 전자 장치의 제어 방법.
PCT/KR2019/011636 2018-11-08 2019-09-09 전자 장치 및 그 제어 방법 WO2020096193A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/292,116 US20210398529A1 (en) 2018-11-08 2019-09-09 Electronic device and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0136738 2018-11-08
KR1020180136738A KR20200053290A (ko) 2018-11-08 2018-11-08 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
WO2020096193A1 true WO2020096193A1 (ko) 2020-05-14

Family

ID=70611607

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/011636 WO2020096193A1 (ko) 2018-11-08 2019-09-09 전자 장치 및 그 제어 방법

Country Status (3)

Country Link
US (1) US20210398529A1 (ko)
KR (1) KR20200053290A (ko)
WO (1) WO2020096193A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6310796B2 (ko) * 1981-04-17 1988-03-09 Tokyo Shibaura Electric Co
US20080243499A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances
KR101625668B1 (ko) * 2009-04-20 2016-05-30 삼성전자 주식회사 전자기기 및 전자기기의 음성인식방법
KR20160065671A (ko) * 2014-12-01 2016-06-09 삼성전자주식회사 응답을 출력하는 디바이스 및 방법
US20180286395A1 (en) * 2017-03-28 2018-10-04 Lenovo (Beijing) Co., Ltd. Speech recognition devices and speech recognition methods
KR20180116100A (ko) * 2017-04-16 2018-10-24 이상훈 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6310796B2 (ko) * 1981-04-17 1988-03-09 Tokyo Shibaura Electric Co
US20080243499A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances
KR101625668B1 (ko) * 2009-04-20 2016-05-30 삼성전자 주식회사 전자기기 및 전자기기의 음성인식방법
KR20160065671A (ko) * 2014-12-01 2016-06-09 삼성전자주식회사 응답을 출력하는 디바이스 및 방법
US20180286395A1 (en) * 2017-03-28 2018-10-04 Lenovo (Beijing) Co., Ltd. Speech recognition devices and speech recognition methods
KR20180116100A (ko) * 2017-04-16 2018-10-24 이상훈 시선 인식에 의한 대화 연속성 식별 기반의 휴먼 인터페이스 처리형 인공지능 스피커

Also Published As

Publication number Publication date
US20210398529A1 (en) 2021-12-23
KR20200053290A (ko) 2020-05-18

Similar Documents

Publication Publication Date Title
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2015111845A1 (en) Electronic device and voice recognition method thereof
WO2018110818A1 (en) Speech recognition method and apparatus
WO2016133316A1 (en) Electronic device and method of operating voice recognition function
WO2018174437A1 (en) Electronic device and controlling method thereof
WO2018034552A1 (en) Language translation device and language translation method
WO2016129930A1 (en) Operating method for voice function and electronic device supporting the same
WO2014017876A1 (en) Voice recognizing method and apparatus using video recognition
WO2019143022A1 (ko) 음성 명령을 이용한 사용자 인증 방법 및 전자 장치
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
WO2020122677A1 (en) Method of performing function of electronic device and electronic device using same
EP3039531A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
EP3533052A1 (en) Speech recognition method and apparatus
WO2020045835A1 (ko) 전자 장치 및 그 제어 방법
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2019203418A1 (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
WO2019112181A1 (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
WO2021071271A1 (en) Electronic apparatus and controlling method thereof
WO2021045503A1 (en) Electronic apparatus and control method thereof
WO2018021750A1 (ko) 전자 장치 및 그의 음성 인식 방법
WO2020101174A1 (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2020096193A1 (ko) 전자 장치 및 그 제어 방법
WO2019216484A1 (ko) 전자 장치 및 그 동작방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19881435

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19881435

Country of ref document: EP

Kind code of ref document: A1